Тембр голоса как интегральная оценка работы речевого аппарата, индивидуализирующая личность говорящего

Распознавание говорящего (в русскоязычной специальной литературе его часто обозначают термином «диктор») — это естественный для человека, с позиций физиологии, процесс (обеспечивается работой высшей нервной деятельности — второй сигнальной системой). Иногда данный процесс называют «биометрией говорящего» (speaker biometrics). В зависимости от решаемых задач распознавание говорящего служит для идентификации, верификации (аутентификации), классификации и др. [1]. Успешное решение указанных задач возможно при одном условии — хорошем знании личности человека, точнее, знании характеристик его голоса.

Исследования в этом направлении были начаты более 40 лет назад и продолжаются в настоящее время [2]. Основные усилия научных коллективов направлены на разработку автоматических систем распознавания дикторов по речевой информации. Главная проблема автоматической идентификации диктора по голосу еще не решена [2, 3]. Позже она будет освещена в отдельной статье. Следует отметить, что периодические испытания на фиксированных базах данных, организуемые Национальным институтом стандартов и технологии США (NIST), демонстрируют постепенное повышение эффективности систем распознавания диктора [2].

В отношении криминалистических исследований, направленных на идентификацию личности говорящего по голосу и речи, следует сообщить следующее. Применяемые в настоящее время экспертные методики [4, 5] предусматривают только аудитивное исследование тембра голоса (качественный анализ). Тембр оценивают субъективно, в описательных терминах [6].

Примеры:

— ларингальный тембр: хриплый/не хриплый, яркий/тусклый, мягкость/жесткость, металлический/бархатный и т. п.;

— надларингальный тембр: назализованный, шипящий, шепелявый, свистящий, гнусавый/не гнусавый и др.

В методиках приводятся особенности формирования того или иного тембра. Например, приглушенно «звучит голос, «застревающий» в задней части ротовой полости и поэтому быстро затухающий»; звонкий тембр появляется у голоса, который характеризуется как «правильно направленный в переднюю часть ротовой полости и там резонирующий» [7]; «неоднородный» (дрожащий, дребезжащий, скрипучий, надсадный, блеющий, вибрирующий) тембр, который обусловлен ритмичностью смыкания складок по частоте и амплитуде [8].

Разработчики экспертных методик едины во мнении о природе тембра, который «обусловливается присоединением к основному тону издаваемого звука добавочных тонов (обертонов), количество и сила звучания которых зависят от особенностей строения гортани, а также от величины и формы резонаторных полостей (глотка, полость рта, носовая полость)» [7]. Конкретное сочетание и выраженность обертонов определяет индивидуальную окраску голоса, т. е. тембр. Такое единство мнений объясняется тем, что в основе методик заложен анализ речевых сигналов в соответствии с моделью речеобразования Г. Гельмгольца [9]. Согласно этой модели, процесс образования речи состоит из двух независимых друг от друга компонентов: порождения звука как такового и формирования акустического качества звука за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении) [10]. Звук генерируется при работе голосового аппарата индивидуума, акустическое качество звука обеспечивается функционированием органов речевого аппарата, придающим голосу индивидуальную тембровую окраску и формирующим поток звуков речи [11].

Анализ литературы по исследуемой теме показал, что тембр — это сложное, многомерное понятие, напоминающее философскую категорию в силу своей междисциплинарности, обусловленной многочисленностью областей науки и искусства, объектом интереса которых выступает человеческий голос.

В Большой Российской энциклопедии [12] приведено следующее определение тембра (от франц. timbre): «субъективно воспринимаемая окраска музыкального звука, зависящая гл. обр. от его спектра», т. е. речь идет о субъективных характеристиках звукового сигнала, являющихся базой для распознавания звукового источника [13]. Тембр дополняет характеристику музыкальных звуков по высоте, громкости, локализации и позволяет различать между собой звуки различной природы (например, певческие голоса, музыкальные инструменты). В оценке тембра имеют значение количество, расположение и интенсивность компонентов спектра (так называемые составляющие спектра): например наличие «устойчивых групп составляющих, называемых формантами». Если в звуке, то он воспринимается как пустой, неокрашенный; если сильно выражены первые обертоны, то он сочный, полный. В случае, если в спектре звука сильно выражены высшие гармоники (в области частот 3—6 кГц), то тембр оценивается как резкий, «металлический». В характеристику тембра входят также шумовые призвуки, атака (начальный момент звукоизвлечения), вибрато и другие факторы. На тембр оказывают влияние параметры самого источника звука: материал, форма источника, условия его колебаний, характеристика резонатора (резонаторов), акустика помещения (если таковое имеется). Следует отметить, что научно обоснованная типология тембра в настоящее время отсутствует.

Обертоном (от нем. Oberton, буквально — верхний тон, верхний звук) называют призвук, входящий в спектр музыкального звука, который звучит выше основного тона [14]. Наличие обертонов обусловлено сложным колебанием звучащего тела, которое является наложением (суперпозиция) простых колебаний. Обертоны вместе с основным тоном называют частичными тонами: 1-й частичный тон равен основному тону, 2-й — первому обертону и т. д. Если частоты последовательных обертонов кратны частоте основного тона (образуют вместе с ним натуральный звукоряд или его начальный участок), то такие обертоны называются гармоническими (в противном случае негармоническими), а спектр звука — гармоническим. Гармонические обертоны вместе с основным тоном называют гармониками: 1-я гармоника соответствует основному тону, 2-я гармоника — первому обертону и т. д. Основной тон условно считают нулевым обертоном. Гармоники, начиная со 2-й, называют высшими.

В стандарте ANSI S1.1−1960 «Акустическая терминология» Американского национального института стандартов тембру дано следующее определение: «это атрибут слухового восприятия, который позволяет слушателю определить, что два звука, имеющие одинаковую высоту и громкость, отличаются друг от друга». В 1976 г. к этому определению в стандарте сделано следующее добавление: «тембр зависит прежде всего от частотного спектра, хотя он также зависит от звукового давления и временных характеристик звука» [15]. Некоторые исследователи [16, 17] считают данное определение неполным и даже неудачным.

В языкознании [12] понятие «тембр» раскрывается следующим образом. Во-первых, тембр — это качество звука речи, зависящее от соотношения по высоте и силе основного тона и добавочного (обертона). Благодаря тембру различают гласные и сонанты (сонорные согласные). Тембр (или окраска) согласных — это их дополнительная артикуляционно-акустическая характеристика. Например, носовой тембр, приобретаемый согласным при назализации; мягкость или твердость звуков. Во-вторых, тембр — это один из составных элементов интонации — звуковая окраска, придающая речи те или иные экспрессивно-эмоциональные оттенки. Например, мрачный, веселый, игривый, ироничный тембр.

Г. Гельмгольц дал такое определение тембру: «разница в музыкальном качестве тона зависит только от присутствия и силы парциальных тонов и не зависит от разности фаз, с которой эти парциальные тоны вступают в композицию» (цит. по [9]). По мнению И.А. Алдошиной и Р. Приттс [13], такая формулировка надолго определила направление исследований в области восприятия тембра и претерпела существенные изменения и уточнения только в последнее время. По данным тех же авторов [13], ряд наблюдений, сделанных Г. Гельмгольцем, подтверждаются результатами современных исследований. Например, восприятие тембра зависит от того, с какой скоростью парциальные тоны вступают в начале звука и затухают в его конце. Кроме того, наличие некоторых шумов и нерегулярностей помогает в распознавании тембра отдельных инструментов.

Известный физик-акустик H. Fletcher, начальник отдела физических исследований Bell Telephone Laboratories, в 1935 г. изучал громкость и высоту музыкальных тонов (отчасти тембр), их связь с частотой, интенсивностью и обертоновой структурой звуков. Он указал на прямое соотношение субъективных ощущений от восприятия звука и физических параметров звуковых колебаний: высоте тона соответствует частота колебаний, громкости — их интенсивность. Также H. Fletcher [18] отметил зависимость тембра от структуры обертонов, интенсивности и высоты тона.

По результатам психоакустических исследований по восприятию тембра J. Licklider [19] пришел к выводу, что тембр — это «многоразмерный параметр».

Исследования R. Plomp [20, 21] показали, что восприятие тембра зависит как от амплитудного спектра (в первую очередь от формы спектральной огибающей), так и от фазового спектра. Таким образом, ухо не страдает «фазовой глухотой», как считал Г. Гельмгольц.

Значимость спектральной огибающей спектра звука в восприятии тембра подтверждена исследованиями M. Clarkson и соавт. [22]. Авторы согласны с мнением R. Plomp, что тембр — это многомерное понятие («a multi dimensional attribute»).

По мнению Т. Rossing и соавт. [23], тембр зависит от временной огибающей звука и его длительности.

Исследования G. Punita и соавт. [24] показали, что изменения спектрального состава звука в первую очередь влияют на восприятие тембра.

Известный ученый S. Handel [25], оценивая тембр, дает ему следующую характеристику, отмечая такую важную его черту, как инвариантность: «в этот момент нельзя сказать, какие акустические инварианты лежат в основе тембра…Сигналы, определяющие качество тембра, взаимозависимы, потому что все они определяются методом звукового производства и физической конструкцией инструмента».

При рассмотрении формы спектральной огибающей — распределении звуковой энергии между спектральными полосами — следует отметить, что на оценку субъективного качества тембра влияет «спектральный центроид» (другое название — «центр масс»). Под ним понимают «среднюю точку распределения спектральной энергии звука» [13], которое коррелирует с кажущейся «яркостью» звука [26]. Смещение «среднего центроида» в область высоких частот (т.е. увеличение энергии группы обертонов — гармоник основного тона) ощущается слушателем как повышение «яркости» тембра звучания [13].

На формируемый тембр оказывает влияние и группировка обертонов в так называемые «формантные группы, особенно в области максимальной чувствительности слуха» [13], которая, помимо этого, определяет фонемную различимость гласных звуков речи. С точки зрения И.А. Алдошиной и Р. Приттс [13], мнение, что «воспринимаемый тембр звука зависит от его спектрального состава, т. е. от расположения обертонов на частотной шкале, от соотношения их амплитуд, формы спектральной огибающей, спектрального распределения энергии по частоте и др., безусловно, справедливо и подтверждается многочисленной практикой работы со звуком».

Примером может служить простейшая классификация тембров в зависимости от расположения «спектрального центроида» в спектре музыкальных тонов (см. рисунок)

Классификация тембра в зависимости от расположения «спектрального центроида» в спектре музыкальных тонов.

[27].

Неудачи первых попыток синтеза музыкальных звуков в 60-е годы на фоне развития компьютерных технологий определили направление научных изысканий по установлению связи восприятия тембра с временно́й структурой сигнала и его нестационарным спектром [13]. В ходе исследований определили временную структуру сигнала и динамику его изменения в зависимости от системы звукообразования (наличие в структуре звука атаки, стационарной части и спада).

Основные физические признаки, установленные к настоящему времени, которые формируют слуховой образ тембра звука и которые необходимо исследовать инструментальными методами анализа речевых сигналов:

— изменение формы спектральной огибающей во времени во все периоды формирования звука;

— выстраивание амплитуд обертонов в период атаки;

— изменение фазовых соотношений между обертонами;

— наличие нерегулярностей спектральной огибающей и положение «спектрального центроида», динамика их значений во времени;

— наличие амплитудной и спектральной модуляции;

— изменение формы спектральной огибающей с изменением интенсивности (громкости) звучания.

Таким образом, значения ряда физических параметров тембра голоса должны сделать идентификационные экспертные исследования по голосу и речи более объективными, наглядными и доказательными.

Автор заявляет об отсутствии конфликта интересов.

e-mail: kiryanoff@rc-sme.ru; https://orcid.org/0000-0002-6929-8816