Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Каганов А.Ш.

ФГБУ "Российский центр судебно-медицинской экспертизы" Минздрава России, Москва

Об использовании спектральных характеристик речи для определения биометрических параметров речевого тракта в судебно-медицинской идентификации личности говорящего

Авторы:

Каганов А.Ш.

Подробнее об авторах

Просмотров: 1447

Загрузок: 66


Как цитировать:

Каганов А.Ш. Об использовании спектральных характеристик речи для определения биометрических параметров речевого тракта в судебно-медицинской идентификации личности говорящего. Судебно-медицинская экспертиза. 2014;57(1):26‑29.
Kaganov ASh. On the use of the spectral speech characteristics for the determination of biometric parameters of the vocal tract in forensic medical identification of the speaker's personality. Forensic Medical Expertise. 2014;57(1):26‑29. (In Russ.)

Рекомендуем статьи по данной теме:
Пра­во­вые и су­деб­но-ме­ди­цин­ские проб­ле­мы пос­мер­тно­го до­норства. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(3):5-9
При­чин­но-следствен­ные свя­зи в су­деб­ной ме­ди­ци­не в слу­ча­ях ос­трых ки­шеч­ных ин­фек­ций. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(3):19-23
Диаг­нос­ти­чес­кие кри­те­рии при­чи­ны смер­ти от действия низ­кой тем­пе­ра­ту­ры на воз­ду­хе и в во­де, ус­та­нав­ли­ва­емые с по­мощью тра­ди­ци­он­ных ме­то­дов эк­спертно­го ис­сле­до­ва­ния. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(3):29-33
Ят­ро­ген­ная па­то­ло­гия или ред­кая бо­лезнь?. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(3):45-49
Су­деб­но-ме­ди­цин­ская ха­рак­те­рис­ти­ка слу­ча­ев утоп­ле­ния в Рос­сий­ской Фе­де­ра­ции с 2013 по 2022 год. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(4):11-15
Ин­но­ва­ции в су­деб­ной ме­ди­ци­не: дос­то­вер­ность, до­ка­за­тель­ность и эф­фек­тив­ность про­во­ди­мых эк­спер­тиз в ус­ло­ви­ях чрез­вы­чай­ной си­ту­ации при мас­со­вой ги­бе­ли лю­дей. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(4):22-26
Ана­лиз де­фек­тов ока­за­ния ме­ди­цин­ской по­мо­щи де­тям по ма­те­ри­алам ко­мис­си­он­ных су­деб­но-ме­ди­цин­ских эк­спер­тиз, вы­пол­нен­ных в Рес­пуб­ли­ке Уз­бе­кис­тан. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(5):15-18
О со­вер­шенство­ва­нии нор­ма­тив­но­го ре­гу­ли­ро­ва­ния под­го­тов­ки кад­ров спе­ци­алис­тов в сфе­ре го­су­дарствен­ной су­деб­но-ме­ди­цин­ской де­ятель­нос­ти. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(5):62-66
О не­об­хо­ди­мос­ти раз­ра­бот­ки ме­ди­цин­ских кри­те­ри­ев при­чин­но-следствен­ной свя­зи по де­лам о не­над­ле­жа­щем ока­за­нии ме­ди­цин­ской по­мо­щи. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(6):5-11
Из­ме­не­ния в нор­ма­тив­ном ре­гу­ли­ро­ва­нии су­деб­но-ме­ди­цин­ской эк­спертной де­ятель­нос­ти в 2024 го­ду и что при этом не­об­хо­ди­мо знать вра­чам — анес­те­зи­оло­гам-ре­ани­ма­то­ло­гам, учас­тву­ющим в про­ве­де­нии ком­плексных су­деб­но-ме­ди­цин­ских эк­спер­тиз. Анес­те­зи­оло­гия и ре­ани­ма­то­ло­гия. 2024;(6):104-109

Среди нескольких определений биометрии с точки зрения судебно-медицинской экспертизы наиболее точным является то, в котором биометрия определяется как идентификация человека по уникальным, присущим только ему биологическим признакам.

При решении задачи медико-криминалистической идентификации личности по голосу и звучащей речи естественным образом возникает вопрос об использовании биометрических характеристик речевого тракта в качестве идентификационных признаков диктора.

Такие признаки могут быть выявлены в результате спектрального анализа речевого сигнала. В статье рассмотрена связь спектральных характеристик речи и биометрических параметров речевого тракта. Дан анализ теоретических оснований, которые являются основой медико-криминалистической идентификации личности по биометрическим характеристикам речевого тракта.

Теоретические положения

Еще в середине 50-х годов прошлого века отечественные исследователи Л.А. Варшавский и И.М. Литвак [1] высказали гипотезу о том, что акустическое качество звуков речи определяется соотношением уровней сигнала в полосах спектра. Форманты[1] являются лишь доступным для речевого аппарата человека способом достижения необходимых полосных соотношений.

При расширении исследований звучащей речи в рамках задачи медико-криминалистической идентификации возникают новые вопросы. Это требует развития теории определения акустического качества звуков речи применительно к речевому материалу ограниченного объема, на так называемых этнических языках, к речевому материалу, связанному с патологией речи, к построению так называемого речевого портрета, т.е. определению тех или иных биометрических характеристик говорящего по параметрам его голоса и речи.

Во всех перечисленных случаях следует говорить о решении задачи с ограничениями, налагаемыми на начальные условия.

Теоретическое обоснование экспертной практики

Распространим гипотезу Л.А. Варшавского и И.М.  Литвака [1] на решение методом формантного выравнивания задачи идентификации диктора, говорящего на этническом языке.

Методика, основанная на этом методе, которая разработана специалистами Центра речевых технологий (Санкт-Петербург), описана в ряде работ (см., например, [2, 3]). В настоящее время метод формантного выравнивания успешно применяется в ряде негосударственных судебно-экспертных учреждений Российской Федерации.

В настоящей работе мы останавливаемся подробно на комплексной методике идентификации личности по голосу и звучащей этнической речи. Эта методика, обладая определенной универсальностью, может быть применена и для идентификации личности дикторов, говорящих на русском языке.

Прежде всего интересен вопрос о связи спектральных характеристик речи и биометрических параметров речевого тракта, т.е. речь идет о разделе идентификационного исследования, в котором опосредованно происходит сравнение геометрической конфигурации речевых трактов дикторов-фигурантов экспертиз на сопоставимых фрагментах исходной и сравнительной фонограммах.

В рамках предложенной методики [2, 3] указанное сравнение проводят путем сопоставления формантного состава на участках реализации в речевом сигнале артикуляторно подобных акустических событий.

Таким образом, согласно методу опорных сегментов, эксперты отбирают для анализа не одинаковые фонетические реализации звуков (слова, слоги)[1], а артикуляторно подобные события. Такие события соответствуют ситуации, когда речеобразующие органы человека находятся в положении, реализующем одно и то же фонетически значимое звучание. Иными словами, для сравнения подбирают не формально, а реально фонетически одинаковые звуки. Фонетически незначимая часть формантного спектра таких звуков и образует идентифицирующие признаки сравниваемой артикуляции[2] [2].

По мысли разработчиков, основная идея метода формантного выравнивания основана на предположении, что каждый диктор в процессе порождения речи может изменять конфигурацию своего речевого тракта только в рамках жестких анатомических ограничений, позволяющих менять геометрические размеры акустического волновода - речевого тракта только в определенной степени. Каждая конфигурация управляется диктором только по своим основным геометрическим размерам, которые обеспечивают реализацию целевых акустических резонансных свойств для низкочастотной части спектра или, вообще говоря, только первых двух-трех формантных максимумов.

Резонансные свойства каждой конфигурации речевого тракта для четвертой и более высоких формант обычно диктором не контролируются и задаются имеющимися анатомическими ограничениями на возможные изменения конфигурации тракта этого диктора, т.е. его биометрическими характеристиками. На языке формантного описания это приводит к тому, что при фиксированных значениях первых формант более высокие по частоте форманты у данного диктора могут занимать только более-менее стабильные индивидуальные положения.

Таким образом, высокочастотная формантная структура речи диктора при фиксированной низкочастотной формантной структуре часто является стабильной[3], неизменной во времени и не подлежит умышленному или неумышленному изменению диктором-фигурантом экспертизы. Иными словами, высокочастотная формантная структура - это, по выражению разработчиков метода, «устойчивая биометрическая характеристика» индивидуума. Сравнительный анализ этих высокочастотных формантных структур (через них и геометрических характеристик речевого тракта) позволяет идентифицировать дикторов с высокой степенью надежности [3].

По своей сути метод опорных сегментов соответствует косвенным измерениям и сравнению мелких деталей геометрического строения речевых трактов дикторов. В процессе идентификации эксперт-исследователь ищет совпадающие конфигурации речевых трактов в исходной и сравнительной записях. При достаточном числе найденных совпавших конфигураций такое совпадение считается, по мысли авторов метода, неслучайным, и может быть принято решение об идентификации дикторов.

Проиллюстрируем справедливость гипотезы [1] применительно к методу опорных сегментов (метод формантного выравнивания) на конкретном примере[4] (рис. 1).

Рисунок 1. Рис. 1а. Динамическая спектрограмма [i]-образного гласного в исходной записи этнической речи.
Рисунок 1. Рис. 1б. Динамическая спектрограмма [i]-образного гласного в сравнительной записи этнической речи.

На рис. 1 совпадают положения 4 формант исследуемого звука: F1 ≈400 Гц, F2 ≈1780 Гц, F3 ≈2430 Гц, F4 ≈3480 Гц.

Проанализируем так называемые спектральные срезы, соответствующие тем временным отметкам в исходной и сравнительной фонограммах, которые отмечены на рис. 1 вертикальными курсорами (рис. 2).

Рисунок 2. Рис. 2. Мгновенные спектры [i]-образного гласного в моменты времени, отмеченные на динамических спектрограммах рис. 1 вертикальными курсорами.
На рис. 2 черная кривая соответствует произнесению неизвестного М, серая - произнесению подозреваемого, т.е. фонограмме-образцу.

Рис. 1 иллюстрирует высокую степень совпадения характерных особенностей реализации спектрально-временной картины при произнесении анализируемого звука. Рис.  2 свидетельствует о высокой степени совпадения соотношений уровней сигнала в полосах спектра[5]. И то и другое косвенным образом характеризует совпадение биометрических параметров речевого тракта обследуемых дикторов.

Теоретическое обоснование результатов экспериментов

Сравнительный анализ речевого сигнала в норме и при определенной патологии (например, при болезнях гортани), проведенный в работе [5], показал, что при исключении гортанного желудочка (морганиев желудочек) из речевого тракта исчезает третья форманта F3 для всех гласных звуков, кроме [и]. Можно сделать вывод, что гортанный желудочек отвечает за формирование третьей форманты в русских гласных [а], [е], [о], [у].

С теоретической точки зрения, исчезновение из спектральной картины речевого сигнала третьей форманты F3 означает, что в полосе спектра, соответствующей F3, исчезает спектральный максимум, который соотносится с соответствующим резонансом. Следовательно, происходит перераспределение соотношений уровней речевого сигнала в полосах спектра, что подтверждает правильность наблюдения о применимости гипотезы [1] к оценке биометрических характеристик речевого тракта диктора.

Форманты (максимумы в спектре речевого сигнала) и в этом случае выполняют роль доступного для речевого аппарата способа достижения необходимых полосных соотношений.

Продолжая обсуждение возможностей использования биометрических характеристик речевого тракта диктора в качестве идентификационных признаков, распространим гипотезу о том, что акустическое качество звуков речи определяется соотношением уровней сигнала в полосах спектра, на теоретическое обоснование той части задачи построения речевого психологического портрета, которая связана с определением размера ротового отверстия говорящего.

Интуитивно ясно, что при построении психологического портрета по голосу и звучащей речи информация о дикторе-фигуранте экспертизы передается акустическим путем. В.П. Морозов [6] в своих исследованиях не только выделил ряд видов и разновидностей этой информации, но и доказал достаточно объективную их связь с психофизическими особенностями диктора. Это касается прежде всего таких чисто физических признаков человека, которые легко проверить, например: возраст, пол, рост. Связь информации о дикторе с его физическим состоянием объясняется тем фактом, что акустические особенности голоса зависят от размера голосовых складок, величины резонаторов речевого тракта «обследуемого» диктора: чем больше эти размеры, тем ниже голос и «гуще» его тембр, и, наоборот, чем меньше эти размеры, тем «выше» голос и «светлее» тембр [7].

В.П. Морозову [6] удалось показать, что субъект восприятия способен по голосу даже воссоздать общий облик говорящего, нарисовать его портрет с довольно точным изображением деталей, например относительного размера рта.

Для оценки ширины рта диктора-фигуранта такой экспертизы В.П. Морозов ввел специальный коэффициент k. Данный коэффициент характеризует процентное отношение акустической энергии высокочастотной части спектра звука в полосе 1-11 кГц к энергии всего звука в целом, т.е. к энергии в полосе 0,1-11 кГц (рис. 3).

Рисунок 3. Рис. 3. Эксперимент В.П. Морозова [6].

Следовательно, по значениям коэффициента k, т.е. по соотношениям уровней сигнала в полосах спектра, можно судить о таком биометрическом показателе диктора-фигуранта экспертизы, как размер его ротового отверстия.

Таким образом, и в этом случае, т.е. в задаче определения размера ротового отверстия говорящего, соотношение уровня сигнала в полосах спектра выступает в качестве идентификационного признака.

Заключение

Анализ соотношений уровней сигнала в полосах спектра [1] является общим теоретическим фундаментом, на котором базируется методология выявления устойчивых идентификационных признаков инструментальной группы, связанных с биометрическими характеристиками речевого тракта диктора при медико-криминалистической идентификации личности по голосу и звучащей речи.

С другой стороны, приведенные результаты свидетельствуют о важности сопоставления значений формант, которые при решении ряда задач выступают в качестве доступного для речевого аппарата способа достижения необходимых полосных соотношений.

[1] Этот метод идентификации личности говорящего имеет и второе название - «метод опорных сегментов».

[1] Так происходит подбор речевого материала в традиционном методе фонетико-спектрального анализа [4].

[2] Таким образом, в методе формантного выравнивания находит свое подтверждение мысль ряда авторов, что в задачах криминалистической экспертизы звукозаписей (КЗС) наиболее информативными часто оказываются те составляющие звукового сигнала, которые вообще не воспринимаются на слух.

[3] Известно, что для идентификации говорящего могут быть использованы только стабильные показатели (см., например, [4]).

[4] Пример взят из реального экспертного исследования фонограмм на одном из этнических языков. Исследование выполнено экспертами судебно-медицинского учреждения «ФоренЭкс» (Санкт-Петербург).

[5] Подтверждается гипотеза, высказанная в работе [1].

Литература

  1. Варшавский Л.А., Литвак И.М. Исследование формантного состава и некоторых других физических характеристик звуков русской речи. Проблемы физиологической акустики. М-Л: АН СССР 1955; 3: 5-17.
  2. Коваль С.Л., Хитров М.В. Идентификация дикторов при анализе разноязычных фонограмм на основе сравнения формантных спектров. Международная конференция "Информация правоохранительных органов": Труды. М: Академия управления МВД 2003; 348-349.
  3. Зубова П.И., Коваль С.Л. Идентификации личности по голосу и звучащей речи на основе комплексного анализа фонограмм. Теория и практика судебной экспертизы 2007; 3: 7: 68-76.
  4. Каганов А.Ш. Криминалистическая идентификация личности по голосу и звучащей речи. 2-е изд., перераб. и доп. М: Юрлитинформ 2012.
  5. Квасов А.Н. Модель голосообразования и анализ речевого сигнала в норме и при патологии: Автореф. дис. ... канд. техн. наук. Томск 2007.
  6. Морозов В.П. Невербальная коммуникация. Экспериментально-психологические исследования. М: Институт психологии РАН 2011.
  7. Морозов В.П. Невербальная коммуникация в системе речевого общения. Психофизиологические и психоакустические основы. М: Институт психологии РАН 1998.
!!

Литература

  1. Varshavsky L.A., Litvak I.M. Issledovanie formantnogo sostava I nekotorykh drugikh fizicheskikh kharakteristik zvukov russkoy rechi . Problemy fiziologicheskoy akustiki . M.-L.: AN SSSR 1955; 3; 5 - 17. [Investigations into the formant composition and some other characteristics of the sounds of the Russian speech]. Problems of physiological acoustics. M.-L.: AN SSSR 1955; 3; 5 - 17.
  2. Koval' S.L., Khitrov M.V. Identifikatsia diktorov pri analize raznoyazychnykh fonogramm na osnove sravneniya formantnykh spektrov. Mezhdunarodnaya konferentsiya "Informatsiya pravookhranitel'nykh organov". Trudy. M.: Akademia upravleniya MVD; 348 - 349. [Identification of the newscasters during the analysis of multilingual phonograms based on the comparison of the formant spectra. International conference " Information law-enforcement authorities". Proceedings]. M.: Akademia upravleniya MVD; 348 - 349.
  3. Zubova P.I., Koval' S.L. Identifikatsiya lichnosti po golosu I zvuchashchey rechi na osnove kompleksnogo analiza fongramm [Personality identification by the voice and sonorous speech based on the comprehensive analysis of phonograms]. Teoriya I praktika sudebnoy ekspertizy, 2007, 3; 7; 68 - 76.
  4. Kaganov A.Sh. Kriminalisticheskaya identifikatsiya lichnosti po golosu I zvuchashchey rechi. 2-e izd. , pererab. i dop. [Personality identification by the voice and sonorous speech. 2nd edition, revised and enlarged]. M.: Yurlitinform, 2012.
  5. Kvasov A.N. Model' golosoobrazovaniya and analiz rechevogo signala v norme I patologii. Avtoref. diss… kand. tekhn. nauk. Tomsk., 2007. [The vocalization model and the analysis of the speech signal under the normal and pathological conditions. Synopsis of the thesis for the candidate of med. sci. degree]. Tomsk. 2007].
  6. Morozov V.P. Neverbal'naya kommunikatsiya. Eksperimental'no-psikhologicheskie issledovaniya [Non-verbal communication. Experimental and psychological investigations]. M.: Institut psikhologii RAN, 2011.
  7. Morozov V.P. Neverbal'naya kommunikatsiya v sisteme rechevogo obshcheniya. Psikhofiziologicheskie I psickhoakusticheskie osnovy. [Non-verbal communication in the system of auditory communication. . Psychophysiological and psychoacoustic principles]. M.: Institut psikhologii RAN, 1998.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.