Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Кирьянов П.А.

ФГБУ «Российский центр судебно-медицинской экспертизы» Минздрава России, Москва, Россия, 125284

Возможности и ограничения экспертных методик идентификации личности по голосу и звучащей речи

Авторы:

Кирьянов П.А.

Подробнее об авторах

Просмотров: 1824

Загрузок: 95


Как цитировать:

Кирьянов П.А. Возможности и ограничения экспертных методик идентификации личности по голосу и звучащей речи. Судебно-медицинская экспертиза. 2015;58(4):32‑36.
Kir’yanov PA. The possibilities and limitations of the methods for the personality identification from the voice and sounding speech characteristics. Forensic Medical Expertise. 2015;58(4):32‑36. (In Russ.)
https://doi.org/10.17116/sudmed201558432-36

Рекомендуем статьи по данной теме:
Ин­но­ва­ции в су­деб­ной ме­ди­ци­не: дос­то­вер­ность, до­ка­за­тель­ность и эф­фек­тив­ность про­во­ди­мых эк­спер­тиз в ус­ло­ви­ях чрез­вы­чай­ной си­ту­ации при мас­со­вой ги­бе­ли лю­дей. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2024;(4):22-26
Эк­спер­ти­за ан­тро­по­мет­ри­чес­ких по­ка­за­те­лей де­тей и под­рос­тков Ни­же­го­род­ской об­лас­ти 1944/45—1959/60—2019/22 гг.. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2025;(1):11-16
Об­зор сов­ре­мен­ных циф­ро­вых ме­то­дов иден­ти­фи­ка­ции лич­нос­ти с при­ме­не­ни­ем тех­но­ло­гии ис­кусствен­но­го ин­тел­лек­та в су­деб­ной сто­ма­то­ло­гии. Сто­ма­то­ло­гия. 2024;(6):79-82

В статье рассматриваются экспертные методики, применяемые специалистами при исследовании звукозаписей для идентификации личности преступника по голосу и речи [1]. Изложенные методики выполняются в государственных судебно-экспертных учреждениях (СЭУ) Минюста России [2] и Минобороны России [3], ФСБ России [4], МВД России [5], ФСКН России [6], Следственного комитета России [7], а также в ряде негосударственных СЭУ [8—11]. В системе экспертных учреждений Минюста России и Минобороны России эта разновидность судебной экспертизы называется криминалистической экспертизой звукозаписи, в СЭУ ФСБ России — судебной фонографической экспертизой, в СЭУ других министерств и ведомств — судебной фоноскопической экспертизой.

Возможности методик оценивают по следующим критериям: приборная база, требования к объекту и субъекту экспертизы, методы исследования, анализируемые параметры речевого сигнала, учет состояния здоровья диктора (наличие/отсутствие соматической или психической патологии), степень автоматизации исследовательского процесса, возможность модифицирования методики и/или методов исследования.

1. Одна из первых разработанных методик — Идентификация лиц по фонограммам русской речи на автоматизированной системе Диалект [12, 13]. Она применяется для установления личности по аудиозаписям разговоров при производстве судебной фонографической или фоноскопической экспертизы.

В настоящее время существуют разновидности Диалекта в виде отдельного аппаратно-программного комплекса (АПК) Фонэкси («Phonexi»), Сапфир и в качестве составного элемента аппаратно-программного комплекса криминалистического фоноучета PhonoBase.

Методика идентификационного исследования «лиц по фонограммам их произвольной русской речи» заключается в исследовании экспертом (комиссией экспертов) звукозаписей (фонограмм) с помощью автоматизированной системы Диалект. Данный АПК включает специализированное программное обеспечение (ПО), которое установлено на персональный компьютер (ПК) под управлением операционной системы Windows. С учетом уровня развития компьютерной и звуковоспроизводящей техники в настоящее время особых, специфических требований к аппаратной части ПК у методики нет.

Объектами криминалистической экспертизы звукозаписей служат (в терминах рассматриваемой методики) «спорная фонограмма» и «свободный образец устной речи» («экспериментальный образец устной речи»). Требования, предъявляемые к исследуемым фонограммам, следующие:

1) сопоставимость аудитивных, лингвистических и ситуационных характеристик, а также условий звукозаписи:

— речь подозреваемого лица должна соответствовать речи устанавливаемого диктора по темпу, тональности, эмоциональной выраженности;

— исследованию подлежит речь только на русском языке;

— схожесть ситуации речевого общения: нельзя сравнивать спонтанную и подготовленную (читаемый или заученный текст) речь;

— сравниваемые звукозаписи должны быть получены (по возможности) в аналогичных технических и акустических условиях;

2) ряд параметров исследуемых звукозаписей должны быть не хуже указанных далее значений:

— средний диапазон частот речевого сигнала от 0 до 3700 Гц;

— неравномерность амплитудно-частотной характеристики тракта получения фонограмм (в полосе от 200 до 3400 Гц) не более 15 дБ;

— средняя величина отношения сигнал/шум не менее 15 дБ;

— длительность фонограммы речи неизвестного лица должна быть не менее 30 с, подозреваемого лица — не менее 5 мин (при проведении исследований по отдельным сопоставимым фрагментам речи в звукозаписях должно быть не менее 10—15 одинаковых слов).

Требования, предъявляемые к субъекту экспертизы (эксперту или комиссии экспертов):

1) отсутствие патологии со стороны органов слуха, «эмоциональной неустойчивости, неуверенности и неуравновешенности»;

2) обладание знаниями следующих разделов наук: общее языкознание, история развития и диалектология русского языка, физиология и психология речи, логопедия, акустика речи и основы магнитной звукозаписи, основы распознавания образов и автоматической обработки речи, основы теории вероятности и математической статистики.

Методы экспертного исследования звукозаписей представлены «акустическим» и лингвистическим анализами, реализованными в алгоритме ПО.

Первый метод анализа включает вычисление в автоматическом режиме статистических характеристик амплитудно-частотной спектральной плотности речевого сигнала (спектральный анализ) и частоты колебаний голосовых связок в единицу времени — основного тона (ОТ). Параметры вычисляют на фрагментах фонограмм, сопоставимых либо по контексту (слова и фразы), либо по звукам. В первом случае исследуют интегральные признаки, которые характеризуют речевой поток в целом и определяют групповую принадлежность говорящего. При сравнении звуков ([А], [О], [Е], [И]) вычисляют статистические значения первых четырех формант (резонансные частоты речевого тракта), измеренные синхронно с моментом возбуждения голосовых связок. Последняя группа признаков индивидуализирует говорящего.

Сравнение полученных численных данных реализуется программно с помощью метода статистического распознавания образов, базирующегося на оценках меры близости по гистограммам распределений значений акустических признаков устной речи. Результаты сравнения оценивают относительно некоторого порога для оценки возможной вариативности значений признаков. Пороговые значения каждого исследуемого признака вычисляют на этапе обучения системы, который проводится заранее. Для этого в базе «Диалекта» имеется четыре обучающих статистических массива, пополняемых экспертом в ходе производства текущей экспертизы.

Лингвистический анализ направлен на поиск признаков, которые выделяются на основе перцептивного (слухового) восприятия эксперта. В основе метода исследования речи на слух лежит знание механизма произнесения звуков и его закономерностей, системы признаков произношения, формирования навыков звучащей речи. В качестве справочной базы используют хранящийся в памяти ПК банк качественных описаний и звучащих эталонов особенностей устной русской речи. Отмечая наличие того или иного признака, частоту его встречаемости в исследуемой речи, эксперт анализирует следующее: 1) речевой поток (оценивает признаки голоса, артикуляции, культуры и облика говорящего); 2) фразы, синтагмы и слова (оценивает синтаксис, морфологию, лексику и фонетику); 3) звуки (исследует отклонения от нормативного произношения гласных и согласных). На сравнительной стадии исследования проводят анализ сущности совпадений и различий лингвистических признаков.

Решение о принадлежности речи на сравниваемых фонограммах одному и тому же человеку эксперт принимает посредством оценки информативности совокупности совпадающих акустических признаков по отношению к допустимому пороговому значению в комплексе с результатами оценки совпадения лингвистических признаков.

Обращает на себя внимание отсутствие оценки состояния здоровья диктора и его учет при проведении исследования. Требования, предъявляемые к исследуемым фонограммам о сопоставимости аудитивных, лингвистических и ситуационных характеристик, можно расценить как частичную реализацию рассматриваемого аспекта.

Степень автоматизации исследовательского процесса речевого сигнала следует условно оценить как высокую, максимально возможную для развития науки и техники на момент разработки ПО.

Модернизация данной методики экспертного исследования речевых фонограмм невозможна, поскольку методика воплощена в виде алгоритма специализированного П.О. При потребности в модификации методики в целом или отдельных методов анализа необходимо будет разрабатывать экспертную методику заново. Для разработчиков ПО и их потенциальных заказчиков это повлечет за собой значительные затраты (научно-изыскательские, технические, временные, материальные и др.).

2. Комплексная методика идентификации личности по голосу и звучащей речи применяется при производстве судебных криминалистических экспертиз звукозаписей [1, 14, 15].

Данная методика представляет собой исследование звукозаписей русской речи двумя экспертами: экспертом с базовым инженерным образованием (эксперт-акустик) и экспертом с базовым лингвистическим образованием (эксперт-лингвист). Исследование проводят с помощью АПК, которое состоит из автоматизированного специализированного ПО и ПК. У каждого эксперта имеется собственный комплекс, который называется автоматизированным рабочим местом (АРМ). Главное требование к техническим характеристикам АРМ — наличие в составе ПК полупрофессиональной/профессиональной звуковой карты, к которой подключены малогабаритная акустическая стереосистема высокого класса и профессиональные стереонаушники (головные телефоны). Выделим наиболее важные требования, предъявляемые к специализированному ПО: обязательная работа в среде операционной системы Windows; оцифровка аудиосигналов в неискаженном виде (без компрессии исходного речевого материала); шумоочистка, темпокоррекция и редактирование фонограмм (получение фрагментов); исследование частоты ОТ и проведение спектрального анализа речевого сигнала; документирование хода и результатов исследования.

Объектами криминалистической экспертизы звукозаписей являются исходная фонограмма (фонограммы) и фонограмма (фонограммы) с образцами голоса и речи фигуранта (фигурантов) экспертизы. Требования, предъявляемые к исследуемым фонограммам, во многом повторяют требования, предъявляемые к объектам исследования по методике Диалект. Сравниваемые речевые фонограммы должны быть сопоставимы по аудитивным, лингвистическим и ситуационным характеристикам, а также по условиям звукозаписи (по возможности). Средняя величина отношения сигнал/шум должна быть не менее 6 дБ, длительность фонограммы речи неизвестного лица  — не менее 30 с, а подозреваемого лица — более 1 мин.

Требования, предъявляемые к субъекту экспертизы (экспертам):

1) наличие инженерного, математического или физического образования у эксперта-акустика, владение базовыми дисциплинами: «Акустика», «Информатика», «Основы системного анализа» и др.;

2) наличие лингвистического образования у эксперта-лингвиста, обладание знаниями в общем языкознании, истории развития и диалектологии русского языка, физиологии и психологии речи, логопедии, владение такими базовыми дисциплинами, как «Прикладная и математическая лингвистика», «Основы системного анализа» и др.;

3) прохождение обоими экспертами двухгодичной специальной подготовки в рамках одной и той же экспертной специальности — «Исследование голоса и звучащей речи» (Минюст России), «Криминалистическая экспертиза звукозаписей» (Минобороны России).

Исследование является комплексным и состоит из 3 частей — аудитивной, лингвистической и инструментальной. Лингвистическую часть выполняет эксперт-лингвист, инструментальную — эксперт-инженер, аудитивную — оба эксперта совместно или по отдельности.

Методы экспертного исследования звукозаписей представлены следующими видами анализа: перцептивным (аудитивная и лингвистическая части) и инструментальным.

В рамках аудитивной части исследования анализируют 3 группы признаков: 1) признаки, характеризующие общее слуховое впечатление: аудитивное восприятие голоса и речи, общий характер дикции и тембра; 2) признаки, характеризующие навыки в организации речевого процесса: громкость, темп речи, специфика речевого дыхания, мелодика; 3) факторы, характеризирующие индивидуальность диктора: «индивидные» признаки, анатомо-физиологические характеристики (например, наличие специфики или патологии речевого аппарата, зубных протезов, особенности физиологического состояния, наличие заболеваний общего характера и др.), общая оценка паузации речи, специфика использования ударения, специфика темпа речи и др. Проводя сравнение, эксперты выполняют анализ сущности совпадений и различий аудитивных признаков.

Лингвистический анализ направлен на исследование признаков, описывающих такие единицы звучащей речи, как речевой поток, фраза, слово, звук, и включает фонетический, синтаксический и лексический анализы. В ходе исследования, которое может контролироваться инструментально, эксперт оценивает качество артикуляции ударных и безударных гласных, а также согласных и кластеров согласных, особенности коартикуляции звуков (например, наличие у диктора дизартрии или дислалии), наличие акцента. Выполняя синтаксический и грамматический анализы, эксперт-лингвист оценивает навыки диктора в организации речевого процесса (особенности использования синтаксических конструкций). Оценка лингвистических признаков лексической группы основана на изучении культуры речи фигуранта экспертизы. При сравнении результатов исследования эксперт-лингвист устанавливает совпадения и различия лингвистических признаков всех групп, принимая решение о принадлежности речи, зафиксированной на исследуемых фонограммах, одному лицу.

Инструментальный анализ фонограмм включает: анализ характеристик ОТ и статистических параметров его огибающей и исследование спектральных характеристик русских гласных (формантный анализ).

Первый из инструментальных разделов анализа предназначен для оценки индивидуальных акустических признаков, характеризующих функционирование источника возбуждения речевого тракта. Он включает следующее: 1) выделение статистических характеристик ОТ, отражающих комплекс навыков говорящего; 2) установление относительного диапазона ОТ; 3) анализ и контроль нерегулярностей О.Т. Определение параметров ОТ дополняется оценкой темпа речи (количество слогов в секунду).

Исследование спектральных характеристик русских гласных (А, О, У, И, Э, Ы, Е) направлено на вычисление значений всех отобразившихся на исследуемой фонограмме формантных частот гласных звуков, а также их отношений между собой.

Сравнение результатов инструментального анализа основано на методе автоматической классификации объектов (метод k ближайших соседей) с вычислением меры близости между полученными наборами признаков (векторами). Порогом для оценки минимального расстояния в проводимой классификации служит «среднее значение флюктуационных изменений, свойственных естественному речевому процессу и составляющих примерно 15…20% от средней частоты основного тона» [15].

Принятие решения о принадлежности речи на сравниваемых фонограммах одному и тому же человеку осуществляется экспертами посредством оценки информативности совокупности совпадающих признаков инструментальной группы по отношению к допустимому пороговому значению в комплексе с результатами оценки совпадения аудитивных и лингвистических признаков.

В рассматриваемой методике эксперт учитывает состояние здоровья диктора, которое заключается в констатации факта наличия той или иной анатомо-физиологической особенности, к которой относят и патологические изменения различных органов и систем человеческого организма. Подробный перечень самих этих особенностей, формы их акустического проявления, нюансы отображения и исследования этих особенностей на фонограммах в рассматриваемой методике не приводятся.

Степень автоматизации исследовательского процесса речевого сигнала напрямую зависит от возможностей применяемого экспертами ПО. В случае использования такого специализированного ПО, как OTExpert, SIS, ИКАР-Лаб II или Justiphone, степень автоматизации будет оцениваться как средняя или высокая.

Модернизация данной методики экспертного исследования речевых фонограмм возможна, но потребует соответствующих затрат (научно-изыскательских, технических, временных, материальных, и др.), хотя и не таких значительных (эта методика более гибкая), как в случае автоматизированной системы Диалект.

3. Экспертная методика идентификации дикторов по фонограммам речи на узбекском, таджикском, цыганском, азербайджанском и талышском языках Этнос [6, 16—18]. Она представляет собой «модернизированный» вариант методики идентификации лиц по фонограммам русской речи на автоматизированной системе Диалект. Используется экспертной службой ФСКН России для исследования фонограммам звучащей речи на перечисленных языках. Все, что относится к методике Диалект, справедливо и в отношении данной методики. Преимуществом «Этнос» стала возможность идентификации лиц по фонограммам речи не только на русском языке. Это преимущество реализуемо только в ситуации привлечения заранее обученного и специально подготовленного эксперта-лингвиста, разговаривающего на русском и соответствующем (узбекском или другом) языках (билингва).

4. Методика идентификации дикторов по голосу и речи на основе комплексного анализа фонограмм [19—22]. Разработана коллективом ООО «Центр речевых технологий» (ЦРТ) под руководством С.Л. Коваля. Применяется при производстве экспертиз небольшим числом негосударственных СЭУ [8—10].

Данная методика представляет собой исследование звукозаписей на любом языке как одним экспертом, так и их комиссией. Исследование речевых фонограмм осуществляется с помощью аппаратно-программного комплекса, состоящего из автоматизированного специализированного ПО и П.К. Требования к аппаратной и программной частям АПК, объектам и субъектам экспертизы во многом подобны (часто совпадают) требованиям, выдвигаемым в комплексной методике идентификации личности по голосу и звучащей речи Минюста и Минобороны России. Отличает данную методику требование к наличию у эксперта совокупности специальных знаний в области инструментального исследования речи, лингвистики и психологии, а также поставленного фонетического слуха и владения универсальной системой описания транскрипции звуков речи любого языка, например системой транскрипции IPA. Определенного базового высшего профессионального образования не требуется.

Методы анализа, применяемые в данной методике: 1) аудитивный анализ; 2) аудитивно-психологический анализ; 3) лингвистический анализ, включающий фонетический анализ, просодический анализ (анализ типологии мелодических контуров и структурный анализ мелодических контуров), инструментальный контроль результатов, синтаксический, семантический и прагматический анализы; 4) инструментальный анализ, включающий интегральный статистический анализ речевых характеристик (анализ статистики частоты ОТ и спектральных признаков, анализ статистических (гауссовых) моделей речи дикторов), формантный (фонемный) анализ гласных и согласных, метод формантного выравнивания (анализ опорных сегментов).

Кратко остановимся на методах исследования, отличающих рассматриваемую методику идентификации от остальных.

В ходе аудитивно-психологического анализа эксперт перцептивно исследует и сопоставляет особенности эмоционально-психологического состояния, психологических и социокультурных характеристик дикторов. Сравнение осуществляется в рамках предлагаемого списка психологических характеристик, имеющего примеры типичного проявления тех или иных дикторских качеств. Определяют обликовые признаки диктора (биологические, психологические и социальные), например пол, возраст, «росто-весовые» параметры диктора, психотип, темперамент, соционический тип, ряд черт характера.

При проведении инструментального анализа речевых сигналов исследуют особенности артикуляции методом сравнения опорных сегментов (метод формантного выравнивания). Сущность метода состоит в сравнительном спектральном анализе высокочастотных формант (F4 и F5) артикуляторно подобных событий (опорных сегментов), реализованных определенным положением периферического отдела речевого аппарата (речевого тракта). По мнению разработчиков метода, изменчивость пространственной конфигурации периферического речевого аппарата в процессе речепроизводства индивидуальна.

Важным, на наш взгляд, отличием данной методики от рассматриваемых ранее является возможность единоличного выполнения квалифицированным экспертом исследования фонограмм речи на незнакомом ему языке. Это возможно при условии наличия в распоряжении эксперта так называемого лингвистического паспорта языка, отражающего специфику его фонетической системы «по сравнению с системой языка, родного для эксперта, а также сведения о диалектных особенностях исследуемого языка» [20].

Идентификационное исследование на основе комплексного анализа голоса и речи завершается синтезирующим рассмотрением результатов проведенных видов анализа, которое включает и оценку вероятности случайного совпадения результатов исследований использованных идентификационных признаков, и оценку необходимого порога принятия решения, и их сопоставление (сравнение).

В рассматриваемой методике при проведении перцептивного анализа учитывают анатомо-физиологические особенности речеобразующего аппарата диктора, индивидуальные интегральные особенности артикуляции и речевых навыков, особенности его эмоционально-психологического состояния. Детальное описание самих особенностей и критерии их оценки не приводятся. Оценка состояния здоровья диктора отсутствует.

Степень автоматизации исследовательского процесса зависит от возможностей применяемого ПО.

Модернизация данной методики экспертного исследования речевых фонограмм возможна при условии соответствующих затрат на ее выполнение.

Заключение

Подводя итог описанию экспертных методик идентификации личности по голосу и речи, применяемых в государственных и негосударственных СЭУ на территории РФ, необходимо отметить следующее.

1. Все применяемые в настоящее время экспертные методики позволяют осуществить с различной степенью доказательности отождествление личности по голосу и речи в условиях отсутствия каких-либо ограничений, накладываемых на речевой материал исходных и сравнительных записей. Аудитивный анализ голоса и звучащей речи выступает при этом в роли контролирующего метода исследования.

2. Ни одна из методик не предлагает алгоритм идентификации личности в условиях ограничений, накладываемых на исследуемый речевой материал изменением состояния здоровья говорящего. Такие условия ограничений разработчики методик предлагают учитывать при проведении идентификационного исследования или при оценке пригодности речевого материала для сравнительного анализа. Форма учета, его характер и степень не обозначены. Перечень конституциональных особенностей и нозологических единиц, акустические формы их проявлений, особенности их отражения на речевом сигнале не приводятся. В требованиях, выдвигаемых к субъекту экспертизы, отсутствует указание на специальную подготовку по медицине, биологии. Предложений по привлечению к производству экспертизы медицинского специалиста соответствующего профиля в методиках нет. Это можно объяснить отсутствием в настоящее время специалистов, которые имеют подготовку, позволяющую решать вопросы диагностики патологии или анатомо-физиологических особенностей по речевым фонограммам.

3. В каждой из рассмотренных экспертных методик, несмотря на различную степень автоматизации исследовательского процесса, главную роль в соответствующей подготовке речевого материала для идентификационного исследования, в оценке получаемых результатов и принятии решения о тождестве сравниваемых объектов играет эксперт (комиссия экспертов). Это требует от него (них) высокой квалификации и обширных знаний в различных областях науки и техники, а также постоянного профессионального роста.

4. В комплексной методике идентификации личности по голосу и звучащей речи (Минюст и Минобороны России) и в методике идентификации дикторов по голосу и речи на основе комплексного анализа фонограмм (ЦРТ) заложен потенциал, позволяющий их модернизировать. Это следует использовать в целях повышения робастности данных методик и доказательности результатов экспертных исследований в судебном процессе. Для этого необходимо модифицировать методы анализа, осуществив в рамках НИР поиск методов объективной диагностики конституциональных особенностей и заболеваний у диктора по речевому сигналу.

Конфликт интересов отсутствует.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.