Введение
За последние десятилетия наблюдается значительный прогресс в области анализа результатов медицинских исследований. Пятьдесят лет назад встречались солидные научные публикации, в которых доказательная база выглядела как описание совокупности примеров [1]. Два—три десятилетия назад в прикладных медицинских исследованиях доминировали параметрические методы статистического анализа, в большинстве случаев опиравшиеся на допущение о нормальном характере распределения величин регистрируемых показателей, чаще всего рассчитывали средние величины и их ошибки, либо строили модели линейной регрессии. Например, в конце XX века моделирование (практически всегда линейное) описано в 18% работ, опубликованных в ведущих медицинских журналах [2, 3].
Многие исследователи приходят к пониманию, что распределения величин фиксируемых при медико-биологических исследованиях показателей нередко значительно отличаются от нормального закона, что диктует необходимость применять непараметрические методы статистического анализа [4].
Однако на практике нередко продолжаются, пусть и с оговорками, попытки максимально использовать привычные параметрические методы анализа.
Для этого есть как субъективные, так и объективные причины.
Среди первых важная роль принадлежит инерции мышления.
Среди вторых обычно фигурируют большая мощность параметрических статистических критериев, а также обширная база знаний, ранее созданная с применением параметрических методов анализа. Нельзя не отметить, что некоторые весьма востребованные в прикладных медицинских исследованиях методы анализа, например множественная линейная регрессия, до относительно недавнего времени не имели реальных альтернатив. Пригодные для практического использования альтернативы появились с прогрессом вычислительной техники и относительно широким внедрением в практику программ-имитаторов искусственных нейронных сетей (ИНС) [5].
Наша позиция, которую мы попытаемся обосновать в настоящей статье, состоит в следующем:
— в медико-биологических исследованиях отличные от нормального закона распределения величин регистрируемых показателей и нелинейные связи между показателями являются не исключениями, а, напротив, типичной ситуацией;
— непараметрические статистические методы анализа целесообразно приоритетно использовать во всех случаях, когда это технически возможно.
Рассмотрим представленные выше положения на примере исследования связей некоторых факторов риска (ФР) с вероятностью фатального исхода по данным длительного проспективного наблюдения в крупном популяционном исследовании — российской части исследования липидных клиник. Параллельно аналогичный анализ выполнен на материале сопоставимого по времени проведения и длительности наблюдения исследования популяции США National Health and Nutrition Examination Survey III (NHANES III). Этот анализ проведен для проверки выводов на другой популяции.
Цель исследования — на примере нескольких типичных антропометрических, гемодинамических и лабораторных показателей продемонстрировать общую закономерность, состоящую в отличии распределений их величин от нормального закона, а также показать нелинейный характер многомерных связей ФР с вероятностью фатального исхода посредством сравнения точности прогноза с использованием нескольких типов ИНС.
Материал и методы
Российские данные получены в одномоментном популяционном исследовании 1975—1982 гг., проведенном в Институте профилактической кардиологии Всесоюзного кардиологического научного центра АМН СССР, ныне ФГБУ «Национальный медицинский исследовательский центр терапии и профилактической медицины» Минздрава России (НМИЦ ТПМ) [6], с проспективным наблюдением за смертностью по состоянию на 2017 г., продолжительность наблюдения до 42 лет. В анализ включены 13 263 мужчины и 5691 женщина в возрасте от 18 до 82 лет с непропущенными значениями всех изученных показателей, с общим количеством «человеко-лет» наблюдения 456 269.
Для сравнения использовали общедоступные данные исследования неорганизованной популяции гражданского населения США NHANES III [7] 1988—1994 гг. с проспективным наблюдением за смертностью до 2019 г.1, продолжительность наблюдения до 31 года. Описание исследования доступно на сайте NCHS (The National Center for Health Statistics)2. В наш анализ включены результаты обследования лиц белой расы в возрасте от 18 до 90 лет (3606 мужчин и 2199 женщин, всего 120 791 «человеко-лет» наблюдения).
Анализировали пол, возраст и величины показателей, характеризующих ряд ФР развития хронических неинфекционных заболеваний: артериальной гипертензии и гипотензии, уровни систолического артериального давления (САД), диастолического артериального давления (ДАД), среднего динамического артериального давления (СрАД, рассчитывалось из САД и ДАД по формуле Хикэма), частоты сердечных сокращений, концентрации в сыворотке крови общего холестерина (ОХС), холестерина липопротеинов высокой плотности (ХС ЛВП), холестерина, не входящего в состав липопротеинов высокой плотности (рассчитывался как разность между измеренными значениями концентраций в сыворотке крови ОХС и ХС ЛВП), триглицеридов, индекса массы тела, статусов курения и образования. В качестве конечной точки использовали смерть от всех причин при сроках наблюдения 10, 20, 30 и 40 (только в российской популяции) лет.
Артериальную гипертензию констатировали, если величины САД и/или ДАД составляли ≥140 и/или 90 мм рт. ст. (номинативная переменная с двумя значениями); либо при САД и/или ДАД ≥140 и/или 90 мм рт. ст., или в анамнезе имелись сведения об установленном врачом диагнозе артериальной гипертензии, или проводилось лечение антигипертензивными лекарственными средствами (номинативная переменная с двумя значениями). Артериальную гипотензию констатировали, если величины САД и/или ДАД <90/60 мм рт. ст. (номинативная переменная с двумя значениями), либо если величина СрАД меньше описанного ранее [8] критерия прогностически неблагоприятной артериальной гипотензии (номинативная переменная с двумя значениями).
Характеризующая статус курения номинативная переменная имела 2 значения: никогда не курил или бросил курить / курит в настоящее время. Характеризующая статус образования номинативная переменная имела 2 значения: образование не выше среднего / выше среднего.
Статистический анализ. Использовали свободно распространяемые версии программного обеспечения, в том числе R Project for Statistical Computing и пробные версии продуктов компаний IBM Corporation (США) и StatSoft Inc. (США). Для оценки значимости отличия эмпирического распределения величин показателя от нормального закона использовали критерий Колмогорова—Смирнова для одной выборки [9].
Строили нейросетевые модели зависимости вероятности фатального события (смерти от всех причин) от изученного набора ФР, использовали полносвязные ИНС с прямым распространением сигнала [10]. В качестве входных элементов ИНС использовали характеризующие ФР показатели, включавшие 16 переменных, из них 10 количественных (возраст, САД, ДАД, СрАД, частота сердечных сокращений, индекс массы тела, концентрации в сыворотке крови ОХС, ХС ЛВП, холестерина не входящего в состав липопротеинов высокой плотности, триглицеридов) и 6 номинативных (статусы курения, образования, два критерия артериальной гипертензии и два критерия артериальной гипотензии).
Сравнивали результаты оценки псевдовероятности фатального события с использованием 5 типов ИНС, включая линейные, вероятностные сети, сети на основе радиальной базисной функции, трехслойные и четырехслойные персептроны. Линейные сети использовали в качестве аналога множественной линейной регрессии, ИНС остальных типов способны моделировать сложные нелинейные зависимости [5, 11].
Нейросетевые модели зависимости вероятности фатального исхода от совокупности ФР строили раздельно для мужчин и женщин Российской Федерации, мужчин и женщин США, для каждого из сроков наблюдения 10, 20, 30 и 40 лет (последнее только для российской популяции), всего 14 объектов анализа. Для каждого объекта строили не менее 50 ИНС каждого типа, из которых отбирали 10 лучших ИНС для окончательного анализа. Основным критерием точности модели являлась минимальная величина среднеквадратичной ошибки в обучающей выборке.
Результаты
Проведена проверка отличия эмпирических распределений величин нескольких характеризующих ФР показателей от нормального закона. В табл. 1 представлены результаты вычислительного эксперимента, который состоял в выделении подвыборок разного объема (от 30 до 4000 наблюдений) из случайно перемешанных записей изученных популяционных выборок. В каждой подвыборке проверяли различия эмпирического распределения величин характеризующего ФР показателя с теоретическим нормальным распределением. Использовали критерий Колмогорова—Смирнова для одной выборки, при величине p<0,05 констатировали статистически значимые отличия эмпирического распределения величины показателя от нормального закона. Согласно общепринятой тактике статистического анализа, отсутствие статистически значимых отличий распределения исследуемого показателя от нормального закона является обоснованием допустимости использования параметрических методов анализа.
Таблица 1. Статистическая значимость (p) отличий распределений величин показателей от нормального закона в зависимости от числа наблюдений
Показатель | Выборка | n | |||||||
30 | 50 | 100 | 200 | 500 | 1000 | 2000 | 4000 | ||
Возраст, лет | РФ, жен. | 0,35 | 0,97 | 0,09 | 0,10 | 0,002 | 0,0001 | 0,0001 | 0,0001 |
США, жен. | 0,51 | 0,51 | 0,03 | 0,04 | 0,0001 | 0,0001 | 0,0001 | 0,0001 | |
РФ, муж. | 0,57 | 0,91 | 0,42 | 0,14 | 0,002 | 0,0001 | 0,0001 | 0,0001 | |
США, муж. | 0,67 | 0,83 | 0,02 | 0,02 | 0,0001 | 0,0001 | 0,0001 | 0,0001 | |
САД, мм рт. ст. | РФ, жен. | 0,51 | 0,07 | 0,06 | 0,27 | 0,001 | 0,0001 | 0,0001 | 0,0001 |
США, жен. | 0,21 | 0,69 | 0,07 | 0,03 | 0,0001 | 0,0001 | 0,0001 | 0,0001 | |
РФ, муж. | 0,45 | 0,10 | 0,08 | 0,02 | 0,01 | 0,0001 | 0,0001 | 0,0001 | |
США, муж. | 0,55 | 0,75 | 0,03 | 0,04 | 0,001 | 0,0001 | 0,0001 | 0,0001 | |
ЧСС, уд./мин | РФ, жен. | 0,77 | 0,19 | 0,21 | 0,01 | 0,0001 | 0,0001 | 0,0001 | 0,0001 |
США, жен. | 0,73 | 0,07 | 0,41 | 0,03 | 0,0001 | 0,0001 | 0,0001 | 0,0001 | |
РФ, муж. | 0,42 | 0,58 | 0,18 | 0,001 | 0,0001 | 0,0001 | 0,0001 | 0,0001 | |
США, муж. | 0,96 | 0,62 | 0,08 | 0,05 | 0,0001 | 0,0001 | 0,0001 | 0,0001 | |
ИМТ, кг/м2 | РФ, жен. | 0,67 | 0,88 | 0,55 | 0,58 | 0,02 | 0,001 | 0,001 | 0,0001 |
США, жен. | 0,81 | 0,29 | 0,13 | 0,006 | 0,001 | 0,0001 | 0,0001 | 0,0001 | |
РФ, муж. | 1,0 | 0,83 | 0,74 | 0,46 | 0,04 | 0,18 | 0,01 | 0,0001 | |
США, муж. | 0,32 | 0,86 | 0,55 | 0,53 | 0,06 | 0,004 | 0,001 | 0,0001 | |
ОХС, ммоль/л | РФ, жен. | 0,30 | 0,91 | 0,38 | 0,01 | 0,04 | 0,03 | 0,0001 | 0,0001 |
США, жен. | 0,95 | 0,86 | 0,87 | 0,30 | 0,13 | 0,007 | 0,003 | 0,0001 | |
РФ, муж. | 0,79 | 0,89 | 0,43 | 0,30 | 0,04 | 0,16 | 0,001 | 0,0001 | |
США, муж. | 0,84 | 0,98 | 0,67 | 0,24 | 0,16 | 0,23 | 0,002 | 0,0001 |
Примечание. p — статистическая значимость различий эмпирического и теоретического нормального распределений по критерию Колмогорова—Смирнова для одной выборки; n — число наблюдений в случайной подвыборке. САД — систолическое артериальное давление; ЧСС — частота сердечных сокращений; ИМТ — индекс массы тела; ОХС — общий холестерин.
Из табл. 1 следует, что вывод об отсутствии статистически значимых различий эмпирического и теоретического нормального распределений определяется объемом подвыборки: при числе наблюдений в пределах 100 в 17 из 20 случаев распределение значимо не отличается от нормального (p>0,05), при наращивании объема подвыборки все чаще выявляются различия эмпирического и теоретического нормального распределений (p<0,05), при числе наблюдений 2000 и более распределения величин всех изученных показателей с высокой достоверностью отличаются от нормального закона (p не превышает 0,01).
Выше представлены результаты проверки нормальности распределения величин ряда показателей по отдельности. Однако на современном этапе более востребован анализ многомерных зависимостей, типичным примером являются модели множественной линейной регрессии. Поэтому в дополнение к описанной выше проверке нормальности распределений величин, характеризующих ФР показателей порознь, также проведена проверка линейности связи их совокупности с вероятностью фатального исхода посредством сравнения величин ошибок в нескольких ИНС разных типов и разной степени сложности.
В табл. 2 представлены результаты для 30-летнего наблюдения, аналогичные расчеты проведены для сроков наблюдения 10, 20, 40 лет российской и 10, 20 лет американской популяций (всего 14 объектов анализа).
Таблица 2. Точность прогноза фатального события при 30-летнем наблюдении в зависимости от типа искусственной нейронной сети
Выборка | № ИНС | Тип ИНС | Число элементов ИНС | Среднеквадратичная ошибка обучения ИНС | ||
входных | 1-го скрытого слоя | 2-го скрытого слоя | ||||
РФ, женщины | 1 | вероятностная | 16 | 5691 | — | 0,4179 |
2 | вероятностная | 15 | 5691 | — | 0,4179 | |
3 | РБФ | 6 | 9 | — | 0,3968 | |
4 | РБФ | 6 | 10 | — | 0,3939 | |
5 | РБФ | 6 | 12 | — | 0,3895 | |
6 | линейная | 16 | — | — | 0,3904 | |
7 | линейная | 15 | — | — | 0,3904 | |
8 | МП(3) | 9 | 4 | — | 0,3789 | |
9 | МП(4) | 9 | 17 | 9 | 0,3467 | |
10 | МП(4) | 9 | 37 | 13 | 0,3059 | |
США, женщины | 1 | вероятностная | 15 | 2199 | — | 0,4068 |
2 | вероятностная | 16 | 2199 | — | 0,4067 | |
3 | РБФ | 6 | 9 | — | 0,3409 | |
4 | РБФ | 6 | 8 | — | 0,3482 | |
5 | линейная | 15 | — | — | 0,3408 | |
6 | линейная | 13 | — | — | 0,3409 | |
7 | линейная | 12 | — | — | 0,3409 | |
8 | МП(4) | 9 | 10 | 10 | 0,2479 | |
9 | МП(4) | 12 | 37 | 15 | 0,1493 | |
10 | МП(4) | 13 | 24 | 8 | 0,1487 | |
РФ, мужчины | 1 | вероятностная | 15 | 13263 | — | 0,4616 |
2 | вероятностная | 16 | 13263 | — | 0,4616 | |
3 | РБФ | 8 | 12 | — | 0,4348 | |
4 | РБФ | 8 | 13 | — | 0,4344 | |
5 | линейная | 14 | — | — | 0,4274 | |
6 | линейная | 15 | — | — | 0,4274 | |
7 | линейная | 16 | — | — | 0,4273 | |
8 | МП(4) | 5 | 2 | 2 | 0,4245 | |
9 | МП(3) | 7 | 3 | — | 0,4235 | |
10 | МП(4) | 7 | 10 | 5 | 0,4192 | |
США, мужчины | 1 | вероятностная | 16 | 3606 | — | 0,4180 |
2 | вероятностная | 15 | 3606 | — | 0,4179 | |
3 | линейная | 15 | — | — | 0,3509 | |
4 | РБФ | 5 | 12 | — | 0,3485 | |
5 | РБФ | 5 | 13 | — | 0,3482 | |
6 | линейная | 14 | — | — | 0,3512 | |
7 | РБФ | 5 | 14 | — | 0,3468 | |
8 | МП(3) | 14 | 16 | — | 0,2805 | |
9 | МП(4) | 14 | 15 | 8 | 0,2570 | |
10 | МП(4) | 14 | 37 | 29 | 0,1778 |
Примечание. ИНС — искусственная нейронная сеть: МП(3) — трехслойный персептрон (с одним скрытым слоем); МП(4) — четырехслойный персептрон (с двумя скрытыми слоями); РБФ — ИНС на радиальных базисных функциях. Входной элемент — аналог независимой переменной в классической модели регрессии. Элементы скрытого слоя — искусственные нейроны промежуточного слоя.
В каждом случае строили не менее 50 ИНС разных типов, из них отбирали 10 лучших, соблюдая примерно равномерное представительство каждого типа нейросетей в итоговом наборе. Чем меньше величина ошибки ИНС, тем точнее она предсказывает вероятность фатального события. При выборе лучших нейросетей в качестве дополнительного критерия поощрялись более простые сети с меньшим числом элементов (моделирующие относительно более простые зависимости).
Обсуждение
Анализ представленных в табл. 1 результатов позволяет заключить, что: 1) распределения величин всех изученных показателей отличаются от нормального закона; 2) объем выборки, обеспечивающий доказательство указанных различий, варьирует от десятков до тысяч наблюдений; 3) при типичных для клинических исследований объемах выборки порядка 30—100 наблюдений распределение большинства включенных в табл. 1 показателей формально не отличается от нормального, при этом дальнейшее увеличение выборки приводит к выявлению высокодостоверных различий.
Ранее опубликованы результаты подобного анализа нормальности распределения более широкого набора гемодинамических, лабораторных, антропометрических показателей, выводы практически не отличались [12].
В табл. 2 представлены результаты обучения ИНС 5 типов, из них линейная сеть представляет собой нейросетевой аналог линейных методов, остальные типы ИНС по природе своей являются нелинейными [5].
Из табл. 2 видно, что в рассматриваемой задаче вероятностные сети дают наихудшие результаты, многослойные персептроны — самые лучшие, а линейные сети показывают средние результаты. Для остальных сроков наблюдения соотношение между исследованными типами ИНС по величине ошибки были похожими на представленные в табл. 2 результаты для 30-летнего наблюдения, во всех случаях наилучшие результаты показали ИНС типа многослойный персептрон.
Таким образом, получено косвенное подтверждение, что моделируемые зависимости во всех случаях имеют нелинейные составляющие, существенно влияющие на результат прогнозирования.
В дальнейшем будем рассматривать многослойные персептроны, во всех выборках показавшие наилучшие результаты. Известно, что четырехслойные персептроны теоретически способны моделировать функцию любой степени сложности [11]. Более подробно обсудим результаты на примере 30-летнего наблюдения (см. табл. 2).
Число входных элементов (независимых переменных в терминах классического многомерного моделирования) колеблется от 16 (все использованные входные переменные) до 5, наиболее выраженное упрощение входного слоя нейросетей оказалось возможным у мужчин России, но и величины ошибки у них больше.
Число элементов в промежуточных слоях имеет смысл анализировать при всех типах ИНС, кроме вероятностных, у которых оно всегда равно числу наблюдений в обучающей выборке. Число элементов промежуточных слоев заметно варьирует, самые сложные ИНС с относительно большим количеством нейронов потребовались в выборках мужчин и женщин США, самые простые ‒ у мужчин Российской Федерации. В целом зависимости достаточно сложные, так как количество нейронов промежуточных слоев в большинстве случаев исчисляется десятками. Соотношение среди лучших сетей долей трехслойных и четырехслойных персептронов (последние составляют не менее 2/3 сетей в каждой выборке) также свидетельствует об относительной сложности моделируемых зависимостей и их нелинейности.
Заключение
В рассмотренной задаче прогнозирования вероятности фатального события в течение 10—40 лет по данным о возрасте, уровне артериального давления, липидных показателях крови, индексе массы тела, статусах курения и образования выявлены следующие закономерности.
Формальный подход к проверке нормальности распределения в малых выборках может провоцировать к использованию более привычных и традиционно считающихся более мощными параметрических статистических критериев и линейных методов анализа.
Связи изученных факторов риска с исходом в значительной мере носят нелинейный характер. Это подтверждается как проверкой нормальности распределения величин показателей порознь (см. табл. 1), так и составом нейросетевых моделей, среди которых наилучшие результаты продемонстрировали успешно моделирующие сложные нелинейные зависимости многослойные персептроны (см. табл. 2).
Связи факторов риска с исходом в рассмотренной задаче относительно сложные, о чем свидетельствует значительное число элементов промежуточного слоя (слоев) в большинстве отобранных в качестве лучших нейросетей и преобладание среди них четырехслойных персептронов, способных к моделированию наиболее сложных зависимостей.
Выводы анализа данных российской популяции проверены на материале крупного популяционного исследования населения США, основные закономерности полностью подтвердились, что, на наш взгляд, повышает надежность полученных результатов.
Благодарности. Сопоставление с данными о популяции США стало возможным благодаря свободному доступу к данным исследований серии NHANES, предоставленному the National Center for Health Statistics (NCHS) США. Ответственность за результаты анализа, интерпретации и выводы лежит на авторах, ответственность NCHS ограничивается первичными данными.
Вклад авторов: концепция и дизайн исследования — Вилков В.Г.; сбор и обработка материала — Вилков В.Г., Шальнова С.А.; статистическая обработка — Вилков В.Г.; написание текста — Вилков В.Г., Шальнова С.А.; научное редактирование — Шальнова С.А.
Работа выполнена в рамках Государственного задания на 2024—2025 гг. № 124013100902-3 «Моделирование риска хронических неинфекционных заболеваний/сердечно-сосудистых заболеваний на основе российских проспективных популяционных исследований».
Авторы заявляют об отсутствии конфликта интересов.
1 https://www.cdc.gov/nchs/data-linkage/mortality-public.htm Ссылка активна на 08.04.24.
2 National Health and Nutrition Examination Survey: Questionnaires, Datasets, and Related Documentation. Accessed April 08, 2023. https://wwwn.cdc.gov/nchs/nhanes/Default.aspx