Введение
Объективная оценка качества голоса является довольно нетривиальной задачей, тем более это актуально у лиц с нарушениями голосовой функции. Вопрос объективной оценки часто возникает в процессе голосовой реабилитации, когда необходимо понять, насколько она была успешной. В настоящее время вопросам реабилитации онкологических больных уделяется большое внимание, однако до сих пор в нашей стране инструментальные способы оценки качества голоса не получили широкого распространения. Одним из способов автоматизированной оценки качества голоса является AVQI (The Acoustic Voice Quality Index — акустический индекс качества голоса), предложенный Y. Maryn и соавт. [1]. Это мультипараметрический инструмент, основанный на шести акустических измерениях и предназначенный для объективной количественной оценки качества голоса. AVQI использует в своем анализе как фонацию гласного в течение нескольких секунд, так и фразовую речь. В предыдущих исследованиях показана надежность AVQI для различных языков, таких как голландский [2], немецкий [2, 3], английский [2], французский [2, 4], финский [5], португальский [6], литовский [7], корейский [8], японский [9]. Тем не менее фразовая речь может существенно различаться по своему фонетическому составу в зависимости от языковой группы. Следовательно, существует потребность в дальнейших исследованиях и проверке возможности использования AVQI для анализа голоса русскоязычных пациентов.
Цель исследования — оценить надежность метода AVQI (the Acoustic Voice Quality Index — акустический индекс качества голоса) для русского языка и определить пороговые значения для выявления дисфонии у русскоговорящего населения.
В данном исследовании рассмотрены следующие вопросы:
1. Может ли AVQI объективно оценивать степень дисфонии у русскоговорящего населения?
2. Насколько тесно AVQI связан с субъективным восприятием голоса?
3. Каковы пороговые значения AVQI для дифференцировки голоса без патологии и голоса с дисфонией?
Материал и методы
Записи голоса
Исследование носило ретроспективный характер. Критерием включения записи голоса в исследование было наличие в аудиофайле текста, обозначенного ниже, и длительность фонации гласного более 2 с. Оценены образцы голоса 51 человека, среди которых 10 образцов принадлежало лицам без нарушения голосовой функции (контрольная группа) и 41 — пациентам с дисфонией, получавшим лечение и голосовую реабилитацию на базе НИИ Онкологии Томского НИМЦ. Из них 22 человека были с односторонними парезами и параличами гортани, возникшими после хирургического лечения рака щитовидной железы, и 19 человек имели верифицированный рак гортани (записи голоса сделаны до начала комбинированного лечения). Среди образцов были записи как мужского голоса (30 записей), так и женского (21 запись). Все образцы голоса включали первое четверостишие стихотворения М.Ю. Лермонтова «Парус», состоящее из 34 слогов, и фонацию гласного «А» на комфортной высоте и громкости. Для оценки использованы средние 2 с фонации гласного.
Субъективная экспертная оценка
Для субъективной экспертной оценки качества голоса в аудиофайл объединены фразовая речь и средние 2 с фонации гласного, между ними пауза 1 с (рис. 1).
Рис. 1. Осциллограмма образца голоса, который использован для субъективной экспертной оценки.
Слева — фразовая речь, одно четверостишие из стихотворения «Парус», справа — фонация гласного «А», разделенные паузой 1 с.
Трем опытным логопедам и одному врачу-фониатору с опытом работы от 21 года до 38 лет предложено оценить полученные образцы голоса. Все записи голоса представлены в случайном порядке. Для оценки использована шкала GRBAS (Grade — общая тяжесть дисфонии, Roughness — грубость, Breathiness — придыхание, Asthenia — слабость, Strain — напряжение) [10], однако в данном исследовании оценивалась только G (общая тяжесть дисфонии). Оценку проводили по четырехбалльной шкале, где 0 — норма, 1 — легкая патология, 2 — умеренная патология, 3 — тяжелая патология. Для анализа внутриэкспертной надежности 8 (15%) записей повторялись дважды. Google-форма использована для облегчения экспертной оценки и сохранения ее результатов. Для повышения уровня надежности оценки всем экспертам предоставлены образцы голосов с обозначенной степенью тяжести дисфонии (легкая, средняя, тяжелая), которые они могли прослушать на любом этапе оценки.
Характеристика AVQI
AVQI — это инструмент для объективного измерения общих акустических характеристик голоса, в который включены 6 параметров:
1) выраженность пиков при кепстральном анализе (Smoothed cepstral peak prominence) (CPPS);
2) отношение гармоник к шуму (Harmonics-to-noise ratio) (HNR);
3) средняя абсолютная разница между амплитудами последовательных периодов, деленная на среднюю амплитуду (Shimmer local);
4) средний абсолютный десятичный логарифм разницы между амплитудами последовательных периодов, умноженный на 20 (Shimmer local dB);
5) общий наклон спектра Slope of LTAS (slope);
5) наклон линии регрессии через спектр (Tilt of trendline through LTAS) (tilt).
AVQI рассчитан в соответствии со следующей регрессионной формулой:
2,571×[3,295–0,111 (CPPs)–0,073 (HNR)– –0,213 (shimmer local)+2,789 (shimmer local dB)– –0,032 (slope)+0,077 (tilt)]
Акустический анализ проведен при помощи скрипта AVQI версии 02.03 для программы Praat (https://www.vvl.be/documenten-en-paginas/praat-script-avqi-v0203). Для оценки необходимы отдельные файлы с записью фразовой речи и фонацией гласной. Причем они должны иметь названия «cs» для файла с речью (расшифровывается «continuous speech») и «sv» — для файла с фонацией гласной («sustained vowel»).
При использовании данного скрипта создается изображение, на котором представлены 6 акустических характеристик, итоговый результат AVQI, а также визуальное отображение этих данных (рис. 2).
Рис. 2. Изображения, созданные при использовании скрипта AVQI версии 02.03 для программы Praat.
Слева — голос без патологии, справа — голос с дисфонией.
Статистический анализ
Статистический анализ выполнен с использованием программной среды для статистических вычислений и графики R версии 4.0.3 (The R Foundation for Statistical Computing, Vienna, Austria) и RStudio 1.4.1103 (RStudio Inc., Boston, MA).
Во-первых, оценена внутри- и межэкспертная согласованность специалистов, проводивших субъективную экспертную оценку записей. Для этого применен внутриклассовый коэффициент корреляции (ICC) [11]. Для его расчета установлена библиотека irr и использована функция icc(). Чтобы интерпретация результатов ICC была адекватной, необходимо использовать корректные параметры при расчете. В данном случае использованы модель «twoway», тип «agreement» и единица измерения «single».
Во-вторых, для исследования достоверности AVQI для русскоговорящей популяции мы оценили коэффициент корреляции Пирсона (rp) между субъективной экспертной оценкой (G) и AVQI. Функция cor.test().
В-третьих, критерий Манна—Уитни (wilcox.test()) применен для оценки различий уровня AVQI между двумя группами: записей голоса без патологии и голоса с дисфонией. Для проверки того, соответствует ли распределение нормальному, использован критерий Шапиро—Уилка (shapiro.test()), а для проверки гипотезы о равенстве дисперсий в группах выполняли тест Бартлетта (bartlett.test()).
В-четвертых, для получения пороговых значений и качества диагностической модели AVQI между голосом без патологии и голосом с дисфонией проведен анализ ROC-кривой и рассчитана площадь под кривой (AUC) с использованием библиотеки ROCR.
Результаты
Межэкспертная и внутриэкспертная надежность
Среднее значение внутриклассового коэффициента корреляции между экспертами составило 0,867, с 95% доверительным интервалом (ДИ) от 0,791 до 0,919. В нашем случае результаты ICC говорят о хорошей надежности (ниже 0,50 — плохая, от 0,50 до 0,75 — умеренная, от 0,75 до 0,90 — хорошая, выше 0,90 — отличная). Внутриэкспертная надежность варьировала от хорошей (ICC=0,842, эксперт 1) до высокой (ICC=0,911, эксперты 2 и 4, ICC=1, эксперт3) со средним внутриэкспертным ICC=0,916. Общая надежность экспертов признана приемлемой для целей настоящего исследования.
Значение AVQI и Grade в зависимости от состояния голосовой функции
Значения AVQI, G в зависимости от патологии гортани показаны на рис. 3. Средние значения варьировали от AVQI = 3,7±0,73, G = 0,3±0,28 — у лиц без патологии голоса, AVQI = 6,46±1,77, G = 2,19±0,74 — у больных с парезами и параличами гортани, до значений AVQI = 7,62±1,0, G = 2,76±0,38 — у больных со ЗНО гортани.
Рис. 3. AVQI и Grade в зависимости от состояния голосовой функции.
ЗНО — злокачественные новообразования.
Оценка корреляции AVQI и G
Корреляция между данными AVQI и средним баллом G составила r=0,867, (p<0,01), с 95% ДИ от 0,79 до 0,91, что говорит о высокой степени корреляции. Этот результат указывает, что голоса с более высокой субъективной экспертной оценкой должны иметь и более высокий AVQI, и наоборот.
Пороговое значение и точность AVQI для дифференцировки голоса без патологии и голоса с дисфонией
Подтверждено, что распределение значений AVQI в группе лиц без патологии голоса и в группе пациентов с дисфонией соответствует нормальному (p>0,05), однако гипотеза о равенстве дисперсий в группах отвергнута (p<0,05). В связи с этим использован непараметрический критерий Манна—Уитни. У лиц без патологии голоса выявлен статистически значимо более низкий уровень AVQI, чем у пациентов с дисфонией (p<0,05). Установлен порог AVQI 4,86 для обнаружения патологии голоса со специфичностью 90% и чувствительностью 87%. Площадь под кривой (AUC) составила 0,966. Это говорит о высокой надежности метода для выявления дисфонии.
Обсуждение
Полученные результаты говорят о высокой степени корреляции между AVQI и субъективной экспертной оценкой, а также о статистически значимом отличии оценки AVQI в группе лиц без патологии голоса и в группе больных с дисфонией. Все это делает возможным использование AVQI для объективной оценки качества голоса в русскоговорящей популяции, как в целях диагностики голосовых расстройств, так и для динамической оценки результатов голосовой реабилитации.
В нашем исследовании получено пороговое значение AVQI для выявления дисфонии, равное 4,86 (со специфичностью 90% и чувствительностью 87%), что выше порога, установленного для других языков: для немецкого (2,7), французского (3,07), английского (3,25—3,29), корейского (3,33), голландского (2,36—3,66) [9]. Полученные результаты могут быть связаны как с фонетическими особенностями русского языка, так и с определенными ограничениями данного исследования. В отличие от зарубежных исследований при проведении записи голоса не оценен уровень окружающего шума и не проведена оценка отношения сигнал/шум (SNR), низкие показатели которого в других исследованиях являлись критерием исключения записей из исследования. Однако мы считаем, что в реальных клинических условиях уровень фонового шума не может быть кардинально снижен, из-за чего пороговое значение AVQI должно быть оценено в условиях, близких к тем, в которых в дальнейшем оценка и будет проводиться.
До сих пор не исследована корреляция между отдельными параметрами, включенными в AVQI, и типом патологии голоса. Мы считаем, что выявление такой закономерности позволило бы использовать AVQI как скрининговый метод выявления различных типов нарушений голосовой функции. Это может стать целью дальнейших исследований.
Заключение
Обнаружено, что AVQI сильно коррелирует с субъективной экспертной оценкой и имеет высокую надежность при объективной оценке степени нарушений голоса в русскоговорящей популяции. Определены средние значения AVQI: для лиц без патологии голоса он составил 3,7±0,73; у больных с парезами и параличами гортани — 6,46±1,77; у больных раком гортани — 7,62±1,0. AVQI может быть использован для оценки качества голоса, в том числе в процессе голосовой реабилитации больных с опухолями головы и шеи. Установлено пороговое значение AVQI для выявления дисфонии, равное 4,86. Однако с учетом ограничений настоящего исследования необходимы повторные исследования для подтверждения полученных пороговых значений.
Авторы заявляют об отсутствии конфликта интересов.