Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Кирьянов П.А.

ФГБУ «Российский центр судебно-медицинской экспертизы» Минздрава России, Москва, Россия, 125284

Тембр голоса как интегральная оценка работы речевого аппарата, индивидуализирующая личность говорящего

Авторы:

Кирьянов П.А.

Подробнее об авторах

Просмотров: 4734

Загрузок: 76


Как цитировать:

Кирьянов П.А. Тембр голоса как интегральная оценка работы речевого аппарата, индивидуализирующая личность говорящего. Судебно-медицинская экспертиза. 2018;61(6):25‑28.
Kir’yanov PA. The quality of the voice as the integrated estimate of the work of the speech apparatus individualizing. Forensic Medical Expertise. 2018;61(6):25‑28. (In Russ.)
https://doi.org/10.17116/sudmed20186106125

Рекомендуем статьи по данной теме:
Пер­вич­ная или ас­сор­ти­мен­тная иден­ти­фи­ка­ция ми­не­раль­ных вод. Ме­то­ды про­ве­де­ния ис­сле­до­ва­ний. Воп­ро­сы ку­рор­то­ло­гии, фи­зи­оте­ра­пии и ле­чеб­ной фи­зи­чес­кой куль­ту­ры. 2023;(1):37-41

Распознавание говорящего (в русскоязычной специальной литературе его часто обозначают термином «диктор») — это естественный для человека, с позиций физиологии, процесс (обеспечивается работой высшей нервной деятельности — второй сигнальной системой). Иногда данный процесс называют «биометрией говорящего» (speaker biometrics). В зависимости от решаемых задач распознавание говорящего служит для идентификации, верификации (аутентификации), классификации и др. [1]. Успешное решение указанных задач возможно при одном условии — хорошем знании личности человека, точнее, знании характеристик его голоса.

Исследования в этом направлении были начаты более 40 лет назад и продолжаются в настоящее время [2]. Основные усилия научных коллективов направлены на разработку автоматических систем распознавания дикторов по речевой информации. Главная проблема автоматической идентификации диктора по голосу еще не решена [2, 3]. Позже она будет освещена в отдельной статье. Следует отметить, что периодические испытания на фиксированных базах данных, организуемые Национальным институтом стандартов и технологии США (NIST), демонстрируют постепенное повышение эффективности систем распознавания диктора [2].

В отношении криминалистических исследований, направленных на идентификацию личности говорящего по голосу и речи, следует сообщить следующее. Применяемые в настоящее время экспертные методики [4, 5] предусматривают только аудитивное исследование тембра голоса (качественный анализ). Тембр оценивают субъективно, в описательных терминах [6].

Примеры:

— ларингальный тембр: хриплый/не хриплый, яркий/тусклый, мягкость/жесткость, металлический/бархатный и т. п.;

— надларингальный тембр: назализованный, шипящий, шепелявый, свистящий, гнусавый/не гнусавый и др.

В методиках приводятся особенности формирования того или иного тембра. Например, приглушенно «звучит голос, «застревающий» в задней части ротовой полости и поэтому быстро затухающий»; звонкий тембр появляется у голоса, который характеризуется как «правильно направленный в переднюю часть ротовой полости и там резонирующий» [7]; «неоднородный» (дрожащий, дребезжащий, скрипучий, надсадный, блеющий, вибрирующий) тембр, который обусловлен ритмичностью смыкания складок по частоте и амплитуде [8].

Разработчики экспертных методик едины во мнении о природе тембра, который «обусловливается присоединением к основному тону издаваемого звука добавочных тонов (обертонов), количество и сила звучания которых зависят от особенностей строения гортани, а также от величины и формы резонаторных полостей (глотка, полость рта, носовая полость)» [7]. Конкретное сочетание и выраженность обертонов определяет индивидуальную окраску голоса, т. е. тембр. Такое единство мнений объясняется тем, что в основе методик заложен анализ речевых сигналов в соответствии с моделью речеобразования Г. Гельмгольца [9]. Согласно этой модели, процесс образования речи состоит из двух независимых друг от друга компонентов: порождения звука как такового и формирования акустического качества звука за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении) [10]. Звук генерируется при работе голосового аппарата индивидуума, акустическое качество звука обеспечивается функционированием органов речевого аппарата, придающим голосу индивидуальную тембровую окраску и формирующим поток звуков речи [11].

Анализ литературы по исследуемой теме показал, что тембр — это сложное, многомерное понятие, напоминающее философскую категорию в силу своей междисциплинарности, обусловленной многочисленностью областей науки и искусства, объектом интереса которых выступает человеческий голос.

В Большой Российской энциклопедии [12] приведено следующее определение тембра (от франц. timbre): «субъективно воспринимаемая окраска музыкального звука, зависящая гл. обр. от его спектра», т. е. речь идет о субъективных характеристиках звукового сигнала, являющихся базой для распознавания звукового источника [13]. Тембр дополняет характеристику музыкальных звуков по высоте, громкости, локализации и позволяет различать между собой звуки различной природы (например, певческие голоса, музыкальные инструменты). В оценке тембра имеют значение количество, расположение и интенсивность компонентов спектра (так называемые составляющие спектра): например наличие «устойчивых групп составляющих, называемых формантами». Если в звуке, то он воспринимается как пустой, неокрашенный; если сильно выражены первые обертоны, то он сочный, полный. В случае, если в спектре звука сильно выражены высшие гармоники (в области частот 3—6 кГц), то тембр оценивается как резкий, «металлический». В характеристику тембра входят также шумовые призвуки, атака (начальный момент звукоизвлечения), вибрато и другие факторы. На тембр оказывают влияние параметры самого источника звука: материал, форма источника, условия его колебаний, характеристика резонатора (резонаторов), акустика помещения (если таковое имеется). Следует отметить, что научно обоснованная типология тембра в настоящее время отсутствует.

Обертоном (от нем. Oberton, буквально — верхний тон, верхний звук) называют призвук, входящий в спектр музыкального звука, который звучит выше основного тона [14]. Наличие обертонов обусловлено сложным колебанием звучащего тела, которое является наложением (суперпозиция) простых колебаний. Обертоны вместе с основным тоном называют частичными тонами: 1-й частичный тон равен основному тону, 2-й — первому обертону и т. д. Если частоты последовательных обертонов кратны частоте основного тона (образуют вместе с ним натуральный звукоряд или его начальный участок), то такие обертоны называются гармоническими (в противном случае негармоническими), а спектр звука — гармоническим. Гармонические обертоны вместе с основным тоном называют гармониками: 1-я гармоника соответствует основному тону, 2-я гармоника — первому обертону и т. д. Основной тон условно считают нулевым обертоном. Гармоники, начиная со 2-й, называют высшими.

В стандарте ANSI S1.1−1960 «Акустическая терминология» Американского национального института стандартов тембру дано следующее определение: «это атрибут слухового восприятия, который позволяет слушателю определить, что два звука, имеющие одинаковую высоту и громкость, отличаются друг от друга». В 1976 г. к этому определению в стандарте сделано следующее добавление: «тембр зависит прежде всего от частотного спектра, хотя он также зависит от звукового давления и временных характеристик звука» [15]. Некоторые исследователи [16, 17] считают данное определение неполным и даже неудачным.

В языкознании [12] понятие «тембр» раскрывается следующим образом. Во-первых, тембр — это качество звука речи, зависящее от соотношения по высоте и силе основного тона и добавочного (обертона). Благодаря тембру различают гласные и сонанты (сонорные согласные). Тембр (или окраска) согласных — это их дополнительная артикуляционно-акустическая характеристика. Например, носовой тембр, приобретаемый согласным при назализации; мягкость или твердость звуков. Во-вторых, тембр — это один из составных элементов интонации — звуковая окраска, придающая речи те или иные экспрессивно-эмоциональные оттенки. Например, мрачный, веселый, игривый, ироничный тембр.

Г. Гельмгольц дал такое определение тембру: «разница в музыкальном качестве тона зависит только от присутствия и силы парциальных тонов и не зависит от разности фаз, с которой эти парциальные тоны вступают в композицию» (цит. по [9]). По мнению И.А. Алдошиной и Р. Приттс [13], такая формулировка надолго определила направление исследований в области восприятия тембра и претерпела существенные изменения и уточнения только в последнее время. По данным тех же авторов [13], ряд наблюдений, сделанных Г. Гельмгольцем, подтверждаются результатами современных исследований. Например, восприятие тембра зависит от того, с какой скоростью парциальные тоны вступают в начале звука и затухают в его конце. Кроме того, наличие некоторых шумов и нерегулярностей помогает в распознавании тембра отдельных инструментов.

Известный физик-акустик H. Fletcher, начальник отдела физических исследований Bell Telephone Laboratories, в 1935 г. изучал громкость и высоту музыкальных тонов (отчасти тембр), их связь с частотой, интенсивностью и обертоновой структурой звуков. Он указал на прямое соотношение субъективных ощущений от восприятия звука и физических параметров звуковых колебаний: высоте тона соответствует частота колебаний, громкости — их интенсивность. Также H. Fletcher [18] отметил зависимость тембра от структуры обертонов, интенсивности и высоты тона.

По результатам психоакустических исследований по восприятию тембра J. Licklider [19] пришел к выводу, что тембр — это «многоразмерный параметр».

Исследования R. Plomp [20, 21] показали, что восприятие тембра зависит как от амплитудного спектра (в первую очередь от формы спектральной огибающей), так и от фазового спектра. Таким образом, ухо не страдает «фазовой глухотой», как считал Г. Гельмгольц.

Значимость спектральной огибающей спектра звука в восприятии тембра подтверждена исследованиями M. Clarkson и соавт. [22]. Авторы согласны с мнением R. Plomp, что тембр — это многомерное понятие («a multi dimensional attribute»).

По мнению Т. Rossing и соавт. [23], тембр зависит от временной огибающей звука и его длительности.

Исследования G. Punita и соавт. [24] показали, что изменения спектрального состава звука в первую очередь влияют на восприятие тембра.

Известный ученый S. Handel [25], оценивая тембр, дает ему следующую характеристику, отмечая такую важную его черту, как инвариантность: «в этот момент нельзя сказать, какие акустические инварианты лежат в основе тембра…Сигналы, определяющие качество тембра, взаимозависимы, потому что все они определяются методом звукового производства и физической конструкцией инструмента».

При рассмотрении формы спектральной огибающей — распределении звуковой энергии между спектральными полосами — следует отметить, что на оценку субъективного качества тембра влияет «спектральный центроид» (другое название — «центр масс»). Под ним понимают «среднюю точку распределения спектральной энергии звука» [13], которое коррелирует с кажущейся «яркостью» звука [26]. Смещение «среднего центроида» в область высоких частот (т.е. увеличение энергии группы обертонов — гармоник основного тона) ощущается слушателем как повышение «яркости» тембра звучания [13].

На формируемый тембр оказывает влияние и группировка обертонов в так называемые «формантные группы, особенно в области максимальной чувствительности слуха» [13], которая, помимо этого, определяет фонемную различимость гласных звуков речи. С точки зрения И.А. Алдошиной и Р. Приттс [13], мнение, что «воспринимаемый тембр звука зависит от его спектрального состава, т. е. от расположения обертонов на частотной шкале, от соотношения их амплитуд, формы спектральной огибающей, спектрального распределения энергии по частоте и др., безусловно, справедливо и подтверждается многочисленной практикой работы со звуком».

Примером может служить простейшая классификация тембров в зависимости от расположения «спектрального центроида» в спектре музыкальных тонов (см. рисунок)

Классификация тембра в зависимости от расположения «спектрального центроида» в спектре музыкальных тонов.
[27].

Неудачи первых попыток синтеза музыкальных звуков в 60-е годы на фоне развития компьютерных технологий определили направление научных изысканий по установлению связи восприятия тембра с временно́й структурой сигнала и его нестационарным спектром [13]. В ходе исследований определили временную структуру сигнала и динамику его изменения в зависимости от системы звукообразования (наличие в структуре звука атаки, стационарной части и спада).

Основные физические признаки, установленные к настоящему времени, которые формируют слуховой образ тембра звука и которые необходимо исследовать инструментальными методами анализа речевых сигналов:

— изменение формы спектральной огибающей во времени во все периоды формирования звука;

— выстраивание амплитуд обертонов в период атаки;

— изменение фазовых соотношений между обертонами;

— наличие нерегулярностей спектральной огибающей и положение «спектрального центроида», динамика их значений во времени;

— наличие амплитудной и спектральной модуляции;

— изменение формы спектральной огибающей с изменением интенсивности (громкости) звучания.

Таким образом, значения ряда физических параметров тембра голоса должны сделать идентификационные экспертные исследования по голосу и речи более объективными, наглядными и доказательными.

Автор заявляет об отсутствии конфликта интересов.

e-mail: kiryanoff@rc-sme.ru; https://orcid.org/0000-0002-6929-8816

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail



Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.