Об использовании спектральных характеристик речи для определения биометрических параметров речевого тракта в судебно-медицинской идентификации личности говорящего

Среди нескольких определений биометрии с точки зрения судебно-медицинской экспертизы наиболее точным является то, в котором биометрия определяется как идентификация человека по уникальным, присущим только ему биологическим признакам.

При решении задачи медико-криминалистической идентификации личности по голосу и звучащей речи естественным образом возникает вопрос об использовании биометрических характеристик речевого тракта в качестве идентификационных признаков диктора.

Такие признаки могут быть выявлены в результате спектрального анализа речевого сигнала. В статье рассмотрена связь спектральных характеристик речи и биометрических параметров речевого тракта. Дан анализ теоретических оснований, которые являются основой медико-криминалистической идентификации личности по биометрическим характеристикам речевого тракта.

Теоретические положения

Еще в середине 50-х годов прошлого века отечественные исследователи Л.А. Варшавский и И.М. Литвак [1] высказали гипотезу о том, что акустическое качество звуков речи определяется соотношением уровней сигнала в полосах спектра. Форманты^[1] являются лишь доступным для речевого аппарата человека способом достижения необходимых полосных соотношений.

При расширении исследований звучащей речи в рамках задачи медико-криминалистической идентификации возникают новые вопросы. Это требует развития теории определения акустического качества звуков речи применительно к речевому материалу ограниченного объема, на так называемых этнических языках, к речевому материалу, связанному с патологией речи, к построению так называемого речевого портрета, т.е. определению тех или иных биометрических характеристик говорящего по параметрам его голоса и речи.

Во всех перечисленных случаях следует говорить о решении задачи с ограничениями, налагаемыми на начальные условия.

Теоретическое обоснование экспертной практики

Распространим гипотезу Л.А. Варшавского и И.М. Литвака [1] на решение методом формантного выравнивания задачи идентификации диктора, говорящего на этническом языке.

Методика, основанная на этом методе, которая разработана специалистами Центра речевых технологий (Санкт-Петербург), описана в ряде работ (см., например, [2, 3]). В настоящее время метод формантного выравнивания успешно применяется в ряде негосударственных судебно-экспертных учреждений Российской Федерации.

В настоящей работе мы останавливаемся подробно на комплексной методике идентификации личности по голосу и звучащей этнической речи. Эта методика, обладая определенной универсальностью, может быть применена и для идентификации личности дикторов, говорящих на русском языке.

Прежде всего интересен вопрос о связи спектральных характеристик речи и биометрических параметров речевого тракта, т.е. речь идет о разделе идентификационного исследования, в котором опосредованно происходит сравнение геометрической конфигурации речевых трактов дикторов-фигурантов экспертиз на сопоставимых фрагментах исходной и сравнительной фонограммах.

В рамках предложенной методики [2, 3] указанное сравнение проводят путем сопоставления формантного состава на участках реализации в речевом сигнале артикуляторно подобных акустических событий.

Таким образом, согласно методу опорных сегментов, эксперты отбирают для анализа не одинаковые фонетические реализации звуков (слова, слоги)^[1], а артикуляторно подобные события. Такие события соответствуют ситуации, когда речеобразующие органы человека находятся в положении, реализующем одно и то же фонетически значимое звучание. Иными словами, для сравнения подбирают не формально, а реально фонетически одинаковые звуки. Фонетически незначимая часть формантного спектра таких звуков и образует идентифицирующие признаки сравниваемой артикуляции^[2] [2].

По мысли разработчиков, основная идея метода формантного выравнивания основана на предположении, что каждый диктор в процессе порождения речи может изменять конфигурацию своего речевого тракта только в рамках жестких анатомических ограничений, позволяющих менять геометрические размеры акустического волновода - речевого тракта только в определенной степени. Каждая конфигурация управляется диктором только по своим основным геометрическим размерам, которые обеспечивают реализацию целевых акустических резонансных свойств для низкочастотной части спектра или, вообще говоря, только первых двух-трех формантных максимумов.

Резонансные свойства каждой конфигурации речевого тракта для четвертой и более высоких формант обычно диктором не контролируются и задаются имеющимися анатомическими ограничениями на возможные изменения конфигурации тракта этого диктора, т.е. его биометрическими характеристиками. На языке формантного описания это приводит к тому, что при фиксированных значениях первых формант более высокие по частоте форманты у данного диктора могут занимать только более-менее стабильные индивидуальные положения.

Таким образом, высокочастотная формантная структура речи диктора при фиксированной низкочастотной формантной структуре часто является стабильной^[3], неизменной во времени и не подлежит умышленному или неумышленному изменению диктором-фигурантом экспертизы. Иными словами, высокочастотная формантная структура - это, по выражению разработчиков метода, «устойчивая биометрическая характеристика» индивидуума. Сравнительный анализ этих высокочастотных формантных структур (через них и геометрических характеристик речевого тракта) позволяет идентифицировать дикторов с высокой степенью надежности [3].

По своей сути метод опорных сегментов соответствует косвенным измерениям и сравнению мелких деталей геометрического строения речевых трактов дикторов. В процессе идентификации эксперт-исследователь ищет совпадающие конфигурации речевых трактов в исходной и сравнительной записях. При достаточном числе найденных совпавших конфигураций такое совпадение считается, по мысли авторов метода, неслучайным, и может быть принято решение об идентификации дикторов.

Проиллюстрируем справедливость гипотезы [1] применительно к методу опорных сегментов (метод формантного выравнивания) на конкретном примере^[4] (рис. 1).

Рисунок 1. Рис. 1а. Динамическая спектрограмма [i]-образного гласного в исходной записи этнической речи.

Рисунок 1. Рис. 1б. Динамическая спектрограмма [i]-образного гласного в сравнительной записи этнической речи.

На рис. 1 совпадают положения 4 формант исследуемого звука: F1 ≈400 Гц, F2 ≈1780 Гц, F3 ≈2430 Гц, F4 ≈3480 Гц.

Проанализируем так называемые спектральные срезы, соответствующие тем временным отметкам в исходной и сравнительной фонограммах, которые отмечены на рис. 1 вертикальными курсорами (рис. 2).

Рисунок 2. Рис. 2. Мгновенные спектры [i]-образного гласного в моменты времени, отмеченные на динамических спектрограммах рис. 1 вертикальными курсорами.

На рис. 2 черная кривая соответствует произнесению неизвестного М, серая - произнесению подозреваемого, т.е. фонограмме-образцу.

Рис. 1 иллюстрирует высокую степень совпадения характерных особенностей реализации спектрально-временной картины при произнесении анализируемого звука. Рис. 2 свидетельствует о высокой степени совпадения соотношений уровней сигнала в полосах спектра^[5]. И то и другое косвенным образом характеризует совпадение биометрических параметров речевого тракта обследуемых дикторов.

Теоретическое обоснование результатов экспериментов

Сравнительный анализ речевого сигнала в норме и при определенной патологии (например, при болезнях гортани), проведенный в работе [5], показал, что при исключении гортанного желудочка (морганиев желудочек) из речевого тракта исчезает третья форманта F3 для всех гласных звуков, кроме [и]. Можно сделать вывод, что гортанный желудочек отвечает за формирование третьей форманты в русских гласных [а], [е], [о], [у].

С теоретической точки зрения, исчезновение из спектральной картины речевого сигнала третьей форманты F3 означает, что в полосе спектра, соответствующей F3, исчезает спектральный максимум, который соотносится с соответствующим резонансом. Следовательно, происходит перераспределение соотношений уровней речевого сигнала в полосах спектра, что подтверждает правильность наблюдения о применимости гипотезы [1] к оценке биометрических характеристик речевого тракта диктора.

Форманты (максимумы в спектре речевого сигнала) и в этом случае выполняют роль доступного для речевого аппарата способа достижения необходимых полосных соотношений.

Продолжая обсуждение возможностей использования биометрических характеристик речевого тракта диктора в качестве идентификационных признаков, распространим гипотезу о том, что акустическое качество звуков речи определяется соотношением уровней сигнала в полосах спектра, на теоретическое обоснование той части задачи построения речевого психологического портрета, которая связана с определением размера ротового отверстия говорящего.

Интуитивно ясно, что при построении психологического портрета по голосу и звучащей речи информация о дикторе-фигуранте экспертизы передается акустическим путем. В.П. Морозов [6] в своих исследованиях не только выделил ряд видов и разновидностей этой информации, но и доказал достаточно объективную их связь с психофизическими особенностями диктора. Это касается прежде всего таких чисто физических признаков человека, которые легко проверить, например: возраст, пол, рост. Связь информации о дикторе с его физическим состоянием объясняется тем фактом, что акустические особенности голоса зависят от размера голосовых складок, величины резонаторов речевого тракта «обследуемого» диктора: чем больше эти размеры, тем ниже голос и «гуще» его тембр, и, наоборот, чем меньше эти размеры, тем «выше» голос и «светлее» тембр [7].

В.П. Морозову [6] удалось показать, что субъект восприятия способен по голосу даже воссоздать общий облик говорящего, нарисовать его портрет с довольно точным изображением деталей, например относительного размера рта.

Для оценки ширины рта диктора-фигуранта такой экспертизы В.П. Морозов ввел специальный коэффициент k. Данный коэффициент характеризует процентное отношение акустической энергии высокочастотной части спектра звука в полосе 1-11 кГц к энергии всего звука в целом, т.е. к энергии в полосе 0,1-11 кГц (рис. 3).

Рисунок 3. Рис. 3. Эксперимент В.П. Морозова [6].

Следовательно, по значениям коэффициента k, т.е. по соотношениям уровней сигнала в полосах спектра, можно судить о таком биометрическом показателе диктора-фигуранта экспертизы, как размер его ротового отверстия.

Таким образом, и в этом случае, т.е. в задаче определения размера ротового отверстия говорящего, соотношение уровня сигнала в полосах спектра выступает в качестве идентификационного признака.

Заключение

Анализ соотношений уровней сигнала в полосах спектра [1] является общим теоретическим фундаментом, на котором базируется методология выявления устойчивых идентификационных признаков инструментальной группы, связанных с биометрическими характеристиками речевого тракта диктора при медико-криминалистической идентификации личности по голосу и звучащей речи.

С другой стороны, приведенные результаты свидетельствуют о важности сопоставления значений формант, которые при решении ряда задач выступают в качестве доступного для речевого аппарата способа достижения необходимых полосных соотношений.

^[1]Этот метод идентификации личности говорящего имеет и второе название - «метод опорных сегментов».

^[1]Так происходит подбор речевого материала в традиционном методе фонетико-спектрального анализа [4].

^[2]Таким образом, в методе формантного выравнивания находит свое подтверждение мысль ряда авторов, что в задачах криминалистической экспертизы звукозаписей (КЗС) наиболее информативными часто оказываются те составляющие звукового сигнала, которые вообще не воспринимаются на слух.

^[3]Известно, что для идентификации говорящего могут быть использованы только стабильные показатели (см., например, [4]).

^[4]Пример взят из реального экспертного исследования фонограмм на одном из этнических языков. Исследование выполнено экспертами судебно-медицинского учреждения «ФоренЭкс» (Санкт-Петербург).

^[5]Подтверждается гипотеза, высказанная в работе [1].

Литература

Варшавский Л.А., Литвак И.М. Исследование формантного состава и некоторых других физических характеристик звуков русской речи. Проблемы физиологической акустики. М-Л: АН СССР 1955; 3: 5-17.
Коваль С.Л., Хитров М.В. Идентификация дикторов при анализе разноязычных фонограмм на основе сравнения формантных спектров. Международная конференция "Информация правоохранительных органов": Труды. М: Академия управления МВД 2003; 348-349.
Зубова П.И., Коваль С.Л. Идентификации личности по голосу и звучащей речи на основе комплексного анализа фонограмм. Теория и практика судебной экспертизы 2007; 3: 7: 68-76.
Каганов А.Ш. Криминалистическая идентификация личности по голосу и звучащей речи. 2-е изд., перераб. и доп. М: Юрлитинформ 2012.
Квасов А.Н. Модель голосообразования и анализ речевого сигнала в норме и при патологии: Автореф. дис. ... канд. техн. наук. Томск 2007.
Морозов В.П. Невербальная коммуникация. Экспериментально-психологические исследования. М: Институт психологии РАН 2011.
Морозов В.П. Невербальная коммуникация в системе речевого общения. Психофизиологические и психоакустические основы. М: Институт психологии РАН 1998.

Литература

Varshavsky L.A., Litvak I.M. Issledovanie formantnogo sostava I nekotorykh drugikh fizicheskikh kharakteristik zvukov russkoy rechi . Problemy fiziologicheskoy akustiki . M.-L.: AN SSSR 1955; 3; 5 - 17. [Investigations into the formant composition and some other characteristics of the sounds of the Russian speech]. Problems of physiological acoustics. M.-L.: AN SSSR 1955; 3; 5 - 17.
Koval' S.L., Khitrov M.V. Identifikatsia diktorov pri analize raznoyazychnykh fonogramm na osnove sravneniya formantnykh spektrov. Mezhdunarodnaya konferentsiya "Informatsiya pravookhranitel'nykh organov". Trudy. M.: Akademia upravleniya MVD; 348 - 349. [Identification of the newscasters during the analysis of multilingual phonograms based on the comparison of the formant spectra. International conference " Information law-enforcement authorities". Proceedings]. M.: Akademia upravleniya MVD; 348 - 349.
Zubova P.I., Koval' S.L. Identifikatsiya lichnosti po golosu I zvuchashchey rechi na osnove kompleksnogo analiza fongramm [Personality identification by the voice and sonorous speech based on the comprehensive analysis of phonograms]. Teoriya I praktika sudebnoy ekspertizy, 2007, 3; 7; 68 - 76.
Kaganov A.Sh. Kriminalisticheskaya identifikatsiya lichnosti po golosu I zvuchashchey rechi. 2-e izd. , pererab. i dop. [Personality identification by the voice and sonorous speech. 2nd edition, revised and enlarged]. M.: Yurlitinform, 2012.
Kvasov A.N. Model' golosoobrazovaniya and analiz rechevogo signala v norme I patologii. Avtoref. diss… kand. tekhn. nauk. Tomsk., 2007. [The vocalization model and the analysis of the speech signal under the normal and pathological conditions. Synopsis of the thesis for the candidate of med. sci. degree]. Tomsk. 2007].
Morozov V.P. Neverbal'naya kommunikatsiya. Eksperimental'no-psikhologicheskie issledovaniya [Non-verbal communication. Experimental and psychological investigations]. M.: Institut psikhologii RAN, 2011.
Morozov V.P. Neverbal'naya kommunikatsiya v sisteme rechevogo obshcheniya. Psikhofiziologicheskie I psickhoakusticheskie osnovy. [Non-verbal communication in the system of auditory communication. . Psychophysiological and psychoacoustic principles]. M.: Institut psikhologii RAN, 1998.