Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Ядгаров М.Я.

НИИ Общей реаниматологии ФНКЦ РР

Берикашвили Л.Б.

НИИ Общей реаниматологии ФНКЦ РР

Каданцева К.К.

1. НИИ Общей реаниматологии ФНКЦ РР;
2. ГБУЗ «Московский клинический научный центр им. А.С. Логинова» Департамента здравоохранения Москвы

Кузовлев А.Н.

НИИ Общей реаниматологии ФНКЦ РР

Переходов С.Н.

ГБУЗ «Городская клиническая больница им. В.П. Демихова» Департамента здравоохранения Москвы

Лихванцев В.В.

НИИ Общей реаниматологии ФНКЦ РР

Многофакторный анализ в клинической медицине

Авторы:

Ядгаров М.Я., Берикашвили Л.Б., Каданцева К.К., Кузовлев А.Н., Переходов С.Н., Лихванцев В.В.

Подробнее об авторах

Просмотров: 6399

Загрузок: 552


Как цитировать:

Ядгаров М.Я., Берикашвили Л.Б., Каданцева К.К., Кузовлев А.Н., Переходов С.Н., Лихванцев В.В. Многофакторный анализ в клинической медицине. Анестезиология и реаниматология. 2021;(5):64‑70.
Yadgarov MYa, Berikashvili LB, Kadantseva KK, Kuzovlev AN, Perehodov SN, Likhvantsev VV. Multivariate analysis in clinical medicine. Russian Journal of Anesthesiology and Reanimatology. 2021;(5):64‑70. (In Russ.)
https://doi.org/10.17116/anaesthesiology202105164

Рекомендуем статьи по данной теме:
Оп­ре­де­ле­ние воз­рас­та по мик­рос­трук­тур­ным па­ра­мет­рам перстне­вид­но­го хря­ща че­ло­ве­ка. Су­деб­но-ме­ди­цин­ская эк­спер­ти­за. 2023;(4):46-51
Прог­нос­ти­чес­кая мо­дель для до­пол­ни­тель­ной ин­тра­опе­ра­ци­он­ной ус­та­нов­ки плев­раль­но­го дре­на­жа при то­ра­кос­ко­пи­чес­кой ло­бэк­то­мии. Хи­рур­гия. Жур­нал им. Н.И. Пи­ро­го­ва. 2023;(12):14-25
Ста­тис­ти­чес­кий ана­лиз пре­дик­то­ров эф­фек­тив­нос­ти при­ме­не­ния ком­плексно­го фи­зи­оте­ра­пев­ти­чес­ко­го воз­действия у па­ци­ен­ток с ин­во­лю­тив­ны­ми из­ме­не­ни­ями ко­жи. Вос­ста­но­ви­тель­ные би­отех­но­ло­гии, про­фи­лак­ти­чес­кая, циф­ро­вая и пре­дик­тив­ная ме­ди­ци­на. 2024;(1):13-20

Введение

Методы одномерного анализа позволяют оценить влияние определенного фактора на риск развития некоторого события у пациентов. Тем не менее, для любого заболевания или патологического состояния характерно наличие множества влияющих на риск переменных и сложной сети причинно-следственных взаимосвязей. Лишь с появлением методов многофакторного анализа исследователям удалось более объективно оценивать не только влияние каждого прогностического фактора на риск, но и учитывать степень взаимодействия между предикторами. Все это имеет огромное значение для клинической практики. Разработка новых инструментов прикладного статистического анализа позволила проводить многофакторный анализ врачам, не обладающим специальными навыками программирования. Однако требуется четкое понимание сути регрессионного анализа и необходима правильная интерпретация рассчитанных откорректированных параметров оценки рисков.

Цель данной статьи — адаптация логики использования и интерпретации методов многофакторного анализа к потребностям начинающего клинициста-исследователя.

Анализ влияния немодифицируемых (возраст, пол и т.д.) и модифицируемых (используемый препарат, метод анестезии, операция и т.д.) факторов на исход лечения (летальность, частота развития осложнений, время пребывания в палате интенсивной терапии и т.д.)

Для количественной оценки степени влияния определенного фактора (предиктора) на изучаемый исход (событие) существует несколько параметров, отличающихся как областью применения, так и особенностями интерпретации. В медицинской статистике широко используется термин «относительный риск», являющийся отношением частоты исходов среди исследуемых, подвергшихся воздействию определенного фактора риска (exposed), к частоте исходов у пациентов контрольной группы (non-exposed). Однако внимательные читатели не могли не заметить, что в зарубежной литературе при оценке результатов одномерного и многофакторного анализа встречаются несколько очень похожих, на первый взгляд, понятий: отношение шансов (OR: odds ratio), относительный риск (RR: relative risk) и отношение рисков (HR: hazard ratio). К сожалению, некоторыми исследователями эти показатели отождествляются как по причине схожести аббревиатур, так и вследствие недостаточных знаний медицинской статистики. Так, W. Holcomb Jr. и соавт. (2001) обнаружили, что примерно 25% всех исследователей неверно интерпретируют отношение шансов как отношение рисков [1], и даже спустя 11 лет ситуация не изменилась: по свидетельству G. Tajeu и соавт. (2012), похожую ошибку все еще допускают 23,2% авторов [2].

Необходимо отдавать себе отчет в том, что отношение рисков, отношение шансов и относительный риск — это разные показатели, и, несмотря на то, что все они являются мерой эффекта факторов риска (воздействия) на вероятность (шансы или относительную частоту) наступления события, они различаются условиями применения, методиками расчета и особенностями в интерпретации (не всегда существенными для клинической практики).

Относительный риск. Относительный риск является удобным параметром, часто используемым в статистическом анализе бинарных исходов для сравнения риска развития события у пациентов, получающих лечение (или подвергшихся влиянию определенного фактора), и у пациентов контрольной группы. Главная особенность относительного риска состоит в простоте его интерпретации: если параметр равен 1, это говорит об отсутствии разницы в риске между группами, при наличии значений менее 1 считается, что в основной (экспериментальной) группе событие (исход) развивается реже (пациенты основной группы имеют меньший риск развития определенного исхода), в то время как значения более 1 говорят о большем риске возникновения события в основной группе. Относительный риск хорош именно для выявления различия между группами, когда частота события мала. Он позволяет при малой частоте события выявить существенное влияние фактора риска (или воздействия) на риск развития события, когда абсолютный прирост частоты события статистические методы не идентифицируют как значимый.

Предположим, у пациенток после радикальной операции по поводу рака молочной железы в условиях метода анестезии 1 риск рецидива составляет 25%, тогда как при использовании метода анестезии 2 аналогичный показатель составляет 15%. Для расчета относительного риска требуется провести несложное математическое действие: относительный риск (RR)=0,25/0,15=1,667. Это означает, что пациенты, оперированные в условиях анестезии 1, имеют в 1,667 раза больший риск развития рецидива опухоли, чем пациенты, оперированные в условиях анестезии 2. Этот расчет и есть то, что подразумевается под относительным риском.

Чтобы проиллюстрировать интерпретацию этого параметра, приведем следующий пример. Предположим, что относительный риск развития делирия у оперированных и неоперированных пациентов в отделении реанимации и интенсивной терапии (ОРИТ) оказался равным 2,7; 95% доверительный интервал (95% ДИ: 1,2—3,7), точный тест Фишера: p=0,013. Это означает, что операция сама по себе в среднем повышает риск развития делирия в ОРИТ в 2,7 раза. Наличие доверительного интервала между 1,2 и 3,7 указывает на то, что у 95% оперированных пациентов диапазон риска развития делирия находится между 1,2—3,7. Точный критерий Фишера свидетельствует о наличии статистически значимого увеличения риска.

Параметр RR имеет и некоторые ограничения [3]. Во-первых, выборка должна быть репрезентативной. Во-вторых, RR является мерой относительного риска, а это значит, что две группы пациентов с вероятностью исхода 0,9 и 1,8% будут иметь тот же RR, что и две группы с вероятностью исхода 30 и 60% (RR=2). Таким образом, рассчитанный RR на уровне восприятия как бы несколько преувеличивает величину эффекта в первом случае и преуменьшает во втором. Однако нужно быть крайне внимательными в интерпретации полученных результатов. Так, если 0,9% прирост перевести на популяцию в несколько миллионов или десятков миллионов человек и посчитать абсолютный прирост в абсолютном числе пациентов, получится достаточно существенное количество. И в данной ситуации именно относительный риск заставит обратить на это внимание. В-третьих, существуют важные ограничения по дизайну исследования для возможности оценки относительного риска. Так, в исследованиях типа случай—контроль (case—control), в ретроспективных исследованиях или исследованиях с историческим контролем объективная оценка параметра RR является неинформативной [3].

Отношение шансов. Показатель OR характеризует величину эффекта, описывающего силу связи или зависимости между двумя величинами. И RR, и OR отражают эффект фактора воздействия на событие, но в разных терминах: RR в терминах рисков (относительных частот/вероятностей), OR в терминах шансов (отношение числа пациентов, у которых развилось событие, к числу пациентов, у которых его не было, внутри одной группы). RR демонстрирует, во сколько раз больше риск (вероятность) развития события в основной группе по сравнению с контролем, а OR показывает, во сколько раз больше шансы развития события в основной группе по сравнению с контролем.

Следует отметить, что для большинства читателей провести различия между RR и OR достаточно сложно. Однако ряд важных ограничений в использовании RR не позволяет использовать этот показатель повсеместно, в то время как OR может быть рассчитан при любом дизайне исследования. Но в случае малой частоты исхода параметр RR может давать более важную информацию для исследователя.

Так как OR является симметричным относительно обоих событий и не отражает причинно-следственных связей, в случае исследований случай—контроль возможно использовать только этот параметр. По аналогии с RR, OR более 1 указывает на увеличение шансов среди пациентов основной группы в сравнении с больными контрольной группы, тогда как OR менее 1 указывает на уменьшение шансов.

Чтобы наглядно продемонстрировать разницу параметров ОР и OR, предлагаем следующий пример. Сравнивается госпитальная летальность пациентов, аортокоронарное шунтирование которым выполнялось в условиях Off-pump и On-pump. Частота летального исхода в группе Off-pump составила 36/128 (28,1%) по сравнению с 58/130 (44,6%) в группе On-pump (табл. 1, в данном примере эти цифры не являются результатами какого-либо реального исследования).

Таблица 1. Данные (гипотетические) рандомизированного исследования: сравнение стратегий «On-pump» и «Off-pump» при операции аортокоронарного шунтирования

Методика операции аортокоронарного шунтирования

Исход

Всего

Умершие

Выжившие

Off-pump

36

92

128

On-pump

58

72

130

Всего

94

164

258

Показатель RR рассчитан как 0,28/0,45=0,62. Это означает, что риск летального исхода после операции аортокоронарного шунтирования в условиях Off-pump составляет 62% от риска после операции аортокоронарного шунтирования в условиях On-pump. Иными словами, методика Off-pump снижает относительный риск на 38% (relative risk reduction, рассчитывается как 100%—62%).

Рассчитанный OR составит: (36×72)/(92×58)=0,48, и это означает, что шанс летального исхода при использовании методики Off-pump составляет 48% от шансов летального исхода при применении альтернативной методики. Иными словами, методика Off-pump снижает шанс летального исхода на 52% по сравнению с методикой On-pump. Таким образом, в приведенном примере использование RR как бы «занижает» степень уменьшения риска на 52%—38%=14%, что довольно существенно.

В каких ситуациях предпочтительно использование RR, а в каких OR?

В случае, когда изучаемый исход является достаточно редким (как правило, частота менее 10%), значение OR практически не отличается от значения RR, и эти два параметра могут быть взаимозаменяемыми [3]. По мере увеличения частоты исходов значения этих параметров все более расходятся. В ретроспективных исследованиях случай—контроль, где нет данных об общем количестве субъектов, подвергшихся действию определенного фактора, расчет RR может дать ложный результат, а потому рассчитывать данный показатель не рекомендуется. Напротив, в проспективных исследованиях, где известно общее число подверженных риску (количество пациентов, подвергшихся воздействию), можно использовать либо RR, либо OR. Важно отметить тот факт, что множественная логистическая регрессия, зачастую используемая в многофакторном анализе, рассчитывает именно скорректированные OR, а не RR.

Отношение рисков. Относительный риск и отношение шансов оценивают риски/шансы для исследуемых групп за весь период исследования. Параметр отношения рисков (HR) отличен от других тем, что он непосредственно связан не только с вероятностью, но и со временем наступления события. Параметр HR рассматривается, как правило, в тандеме с кривыми выживаемости. Например, в работе B. Brueske и соавт. (2019) авторы оценивают риск отдаленных летальных исходов у пациентов с гипо-, нормо- и гиперкалиемией (рис. 1) [4]. На рис. 1 вертикальная ось соответствует вероятности выживания, а горизонтальная ось отражает время (годы после выписки из стационара). Вероятность изучаемого события можно оценить, взяв ординату относительно той единицы времени, которая интересует читателя, или оценив количество событий за единицу времени.

Рис. 1. Кривые выживаемости пациентов после выписки из стационара в зависимости от уровня калия в крови при поступлении.

p<0,001 для сравнения показателей у пациентов с гиперкалиемией и пациентов других групп; p>0,1 для сравнения показателей у пациентов с гипокалиемией и нормокалиемией (B. Brueske и соавт., 2019) [4].

Параметр отношения рисков (HR), рассчитанный в результате использования регрессионной модели пропорциональных рисков Кокса (регрессии Кокса) при сравнении пациентов с гиперкалиемией с другими пациентами составил 1,20 (95% ДИ: 1,08; 1,34), p<0,001. HR равный 1 указывает на отсутствие различий — для всех кривых выживаемости вероятность события является одинаковой в любой момент времени. В нашем случае результат интерпретируется следующим образом: риск пятилетнего летального исхода в 1,2 раза выше у пациентов, поступивших в ОРИТ с гиперкалиемией.

При оценке параметра HR делается допущение о том, что пропорция рисков сохраняется во времени. Сравнительная характеристика RR, OR и HR представлена в табл. 2.

Таблица 2. Сравнительная характеристика параметров оценки влияния факторов на изучаемый исход

Параметр

Интерпретация

Ограничения

Временная шкала

RR

Эффект фактора воздействия на событие в терминах рисков

Исследование является репрезентативным для генеральной совокупности. Нельзя использовать в ретроспективных исследованиях и в исследованиях случай—контроль

Не учитывается динамика риска во времени

OR

Эффект фактора воздействия на событие в терминах шансов

Исследование является репрезентативным для генеральной совокупности. Обычно может применяться везде. В случае, когда изучаемый исход встречается достаточно часто (например, высокая летальность), может как бы «преувеличивать» вероятность в сравнении с RR

Не учитывается динамика риска во времени

HR

Эффект влияния вмешательства на риск более раннего наступления изучаемого исхода

Исследование является репрезентативным для генеральной совокупности. Скорость изменений — время убывания кривых выживаемости в двух группах — должна быть относительно сопоставимой

Привязка ко времени. Отражает динамику риска исследуемого события с течением времени

Примечание. OR — odds ratio (ОШ, отношение шансов); RR — relative risk (ОР, относительный риск); HR — hazard ratio (ОР*, отношение рисков).

При наличии данных о времени возникновения изучаемого исхода оценка параметра HR может быть предпочтительна, так как HR дает дополнительную информацию о времени возникновения исхода и о том, как изменяется риск во времени.

Необходимо отметить, что параметры RR и OR в одномерном анализе могут быть оценены как с использованием калькуляторов, так и в логистическом регрессионном анализе, в то время как многофакторный анализ и оценка отношения рисков могут быть проведены только с использованием методов мультифакторного анализа (propensity score matching, регрессионный анализ, а для оценки HR — только регрессионный анализ пропорциональных рисков Кокса).

Регрессионный анализ и метод propensity score matching. Методы многофакторного, или мультифакторного, анализа (от англ. — multivariate analysis) — те же методы одномерного анализа, но расширенные для возможности оценки взаимосвязи одной зависимой переменной отклика и n независимых переменных (влияющих факторов). Эти методы используются для оценки влияния двух и более факторов на изучаемый результат. В то время как одномерная статистика позволяет определить, как каждая из переменных связана с исходом, а оценка частной корреляции (рассмотренная в прошлой статье нашего цикла) лишь устраняет влияние одного или нескольких факторов, многофакторный статистический анализ дает важную информацию не только о влиянии на исход каждой из нескольких переменных, но и о степени взаимодействия всех переменных между собой [5].

Преимущество многофакторного анализа может быть наглядно продемонстрировано в следующем примере: исследователем выдвигается предположение о том, что пациенты с диагнозом COVID-19, у которых развилось острое нарушение мозгового кровообращения (ОНМК) в ОРИТ, имеют больший шанс наступления летального исхода.

Действительно, в одномерном анализе, проведенном в группе 425 пациентов с COVID-19, OR наступления неблагоприятного исхода для пациентов с ОНМК оказался равным 6,2 (95% ДИ: 3,4; 10,8, точный тест Фишера: p<0,001). Иными словами, пациенты с ОНМК в ОРИТ имеют в 6,2 раза больший шанс летального исхода.

В многофакторном анализе должны быть учтены и другие факторы; в нашем случае, как предполагается: пол, возраст, индекс коморбидности (Чарлсона) и проводимая терапия. В результате совместного включения всех параметров в регрессионную модель оказалось, что наличие ОНМК в ОРИТ исключено из набора факторов, влияющих на развитие летального исхода, а реальными независимыми предикторами являются только индекс коморбидности — откорректированное отношение шансов (adjusted odds ratio): 1,5 (95% ДИ: 1,2; 1,9, p=0,002), и назначение блокаторов интерлейкина (ИЛ)-6 — adjusted odds ratio: 0,4 (95% ДИ: 0,2; 0,5, p=0,001). Эти результаты можно интерпретировать следующим образом: при увеличении индекса коморбидности на 1 шанс летального исхода в ОРИТ увеличивается в полтора раза, а использование блокаторов ИЛ-6 оказывает протективное действие — шансы летального исхода снижаются на 60%. Причина, по которой развитие ОНМК в ОРИТ не является независимым предиктором летального исхода, кроется в следующем: пациенты с ОНМК были старше (медиана возраста при госпитализации 65-летних по сравнению с 44-летними, U-Манна—Уитни: p=0,021) и имели больший индекс коморбидности (медиана 3,2 по сравнению с 2,0, U-Манна—Уитни: p=0,004). Кроме того, пациенты с ОНМК чаще имели хроническую болезнь почек (ХБП) в анамнезе (61% по сравнению с 19%, точный тест Фишера: p<0,001), что являлось противопоказанием к назначению блокаторов ИЛ-6, оказывающих протективное действие. Таким образом, только в случае использования многофакторного анализа исследователь, располагая полной информацией о взаимосвязи факторов, может сделать объективный вывод о причинах, влияющих на изучаемый исход, и оценить степень одновременного влияния включаемых в анализ предикторов.

В рассмотренном примере на связь между ОНМК и летальным исходом повлияли так называемые вмешивающиеся факторы — конфаундеры (от англ. confounders). Основным преимуществом многофакторного статистического анализа является возможность учесть влияние подобных факторов и провести поправку рассчитанных показателей RR, OR и HR (поправка, корректировка; от англ. adjustment), и рассчитать в регрессионном анализе, соответственно, adjusted RR, adjusted OR и adjusted HR [6].

Помимо регрессионного анализа существует и другой способ устранения конфаундинг-эффекта — метод propensity score matching (PSM). Русского варианта перевода названия этого метода, разработанного еще в 1983 г., нет; А.М. Гржибовский и соавт. в 2016 г. предложили термин «псевдорандомизация» [7]. Метод PSM позволяет рассчитать коэффициент соответствия (propensity score) — вероятность попадания каждого объекта исследования в основную или контрольную группу на основании его характеристик. Главная отличительная особенность метода заключается в том, что он позволяет свести широкий набор характеристик каждого наблюдения к единому вариационному ряду значений коэффициентов соответствия. Метод PSM, не уступая по эффективности регрессионному анализу, не требует при этом большого размера выборки [7, 8]. Основным недостатком метода PSM является тот факт, что процесс отбора конфаундеров не стандартизован и до сих пор является предметом обсуждения в литературе [7, 9]. Таким образом, использование этого метода автоматически несет в себе элемент систематической ошибки (bias), поскольку автор и только автор выбирает, включить или не включить в анализ тот или иной конфаундер.

Следует отметить, что проблема в определении независимых предикторов и конфаундеров актуальна не только для PSM — даже в регрессионном анализе зачастую невозможно выделить независимые предикторы, так как один и тот же фактор может как оказывать независимый эффект на исход, так и быть вмешивающимся фактором, влияющим на другую переменную. Возвращаясь к нашему примеру, применение блокаторов ИЛ-6, исходя из результатов анализа, обладает независимым протективным действием. С другой стороны, генно-инженерная биологическая терапия назначается более молодым пациентам с меньшим числом коморбидных состояний в анамнезе и отсутствием противопоказаний. Все выделенные курсивом переменные сами по себе снижают риск летального исхода в ОРИТ.

Следующей проблемой при проведении многофакторного анализа является необходимость учета взаимодействия между переменными. Иными словами, необходимо предварительное проведение одномерного анализа, в том числе корреляционного анализа, межгрупповых сравнений с последующим включением в регрессионную модель нескольких значимых предикторов, так как для внесения параметра в модель необходимо изначально иметь предположение о том, какие переменные могут взаимодействовать [10]. В противном случае, при включении всего массива предикторов в многофакторный анализ начинается системный поиск взаимодействий путем деления групп на подгруппы, и, таким образом, чем больше включено взаимодействующих переменных, тем больше образуется подгрупп данных. Эта ситуация чревата тем, что в одной или нескольких из них взаимодействие будет обнаружено в силу случайного совпадения (ошибка 1-го рода) [5]. Кроме того, реальные анализируемые базы данных, как правило, имеют незаполненные поля (lost for follow up, что неизбежно в реальных условиях), и при внесении значительного числа предикторов в регрессионную модель образуемые подгруппы будут значительно уменьшаться в объеме, что не только может привести к ошибке 1-го рода, но и стать причиной увеличения доверительных интервалов. Однако существует возможность пошагового включения предикторов в регрессионную модель (с использованием статистики Вальда или коэффициента правдоподобия), в ходе которого информативные предикторы отбираются, а зашумленные исключаются автоматически в соответствии с заданным критерием, который не связан с клинической ситуацией. В таком случае возможно внесение всего массива предикторов в регрессионную модель.

Представление результатов многофакторного анализа. Как правило, результаты, полученные в ходе регрессионного анализа, представляются в виде таблиц, содержащих информацию о рассчитанных параметрах (RR, OR и HR), их доверительных интервалах и рассчитанном p-уровне значимости. По результатам анализа выживаемости и регрессионного анализа пропорциональных рисков Кокса также можно представить кривые выживаемости, а полученные регрессионные уравнения могут быть использованы для разработки, например, онлайн-калькуляторов [11, 12].

В последние годы значительно выросла популярность графического метода представления результатов регрессионного анализа в виде прогностических номограмм [13, 14]. Основным преимуществом номограмм являются простота и наглядность их интерпретации: каждая независимая переменная указана отдельно, с соответствующим количеством баллов, присвоенных каждой величине. Далее полученные совокупные баллы сопоставляются со шкалой результатов (рис. 2).

Рис. 2. Номограмма для прогноза пятилетней общей выживаемости у пациентов с меланомой (гипотетические данные).

ЛДГ — лактатдегидрогеназа. Пояснение в тексте.

В случае, представленном на рис. 2, методом многофакторной статистики исследователи проанализировали несколько предикторов пятилетней выживаемости с расчетом ОВ при меланоме (возраст, пол, число сайтов метастазирования и уровень лактатдегидрогеназы (ЛДГ)). В регрессионном анализе Кокса определены два независимых предиктора неблагоприятного исхода: уровень ЛДГ более 805 Ед/л (HR: 2,458 [95% ДИ: 1,091; 5,536], p=0,030) и число сайтов метастазирования (HR: 1,818 [95% ДИ: 1,240; 1,666], p=0,002). В результате построена настоящая номограмма. Предлагается вариант расчета вероятности наступления летального исхода у пациента с метастазами в легких, костях и печени (Score 6) и уровнем ЛДГ, равным 504 Ед/л (меньше 807 Ед/л, Score 0). Совокупная оценка для него составила 6 баллов, а значит вероятность летального исхода составляет 50% в течение 5 лет от момента установления диагноза, иначе говоря, пятилетняя ОВ составляет 50%. Особенно часто прогностические номограммы используются в течение последнего года для прогнозирования наступления летального исхода и тяжелого течения инфекции у пациентов с COVID-19 [15—18].

Анализ качества моделей. Для оценки качества моделей на основе логистической регрессии предложено несколько статистических критериев согласия, но наиболее часто используется тест Хосмера—Лемешоу (Hosmer—Lemeshow test) [19]. Главным параметром, оценивающим качество как отдельных предикторов, так и всей регрессионной модели, является площадь под ROC-кривой (AUC, area under curve), рассчитываемая путем интегрирования ROC-кривой (функция чувствительности от переменной «1-специфичность») по переменной «1-специфичность». Чем ближе рассчитанный параметр AUC к единице, тем выше прогностическая значимость предиктора. Если параметр AUC<0,75, то модель считается низкого качества. Значение AUC=0,5 рассматривается как нижний передел качества, при котором модель аналогична методу случайного выбора.

Важной задачей, стоящей перед исследователем, является не только оценка качества модели на использованной выборке (обучение модели), но и проверка надежности (тестирование) прогностической модели на независимых массивах данных. Для этого должны быть выполнены следующие этапы (рис. 3, а):

Рис. 3. Оценка качества регрессионных моделей в многофакторном анализе.

а — обучение, валидация и тестирование моделей на независимом наборе данных; б — схема пятикратной перекрестной проверки модели (cross-validation) на одной выборке.

1. Обучение модели (training). На этапе обучения исследователи включают в регрессионную модель предикторы и указывают изучаемый исход, все данные берутся из имеющейся выборки (обучающей выборки). Результатом является регрессионная модель с набором характеристик, оценкой коэффициентов регрессионного уравнения и их доверительных интервалов (матрицей ковариации дисперсии). Может быть построено несколько различных регрессионных моделей, отличающихся набором предикторов и/или выбранными точками отсечения для параметров.

2. Валидация модели (validation). На этом этапе необходимо определить, насколько хорошо построенная модель работает на обучающей выборке (например, как выглядит распределение ошибок), а также выбрать наилучшую из моделей (как правило, по результатам ROC-анализа).

3. Третий, последний этап — тестирование модели (testing). Модель должна быть протестирована на другом наборе данных (в лучшем случае, независимом), и здесь исследователи должны понять, насколько хорошо построенная и обученная на первоначальной выборке модель работает для предсказания исхода с новыми данными (удобнее всего сравнить результаты ROC-анализа при обучении/валидации и тестировании).

К сожалению, в реальной клинической практике нечасто появляется возможность получить сопоставимые данные независимых исследователей из других центров. Но и из этой ситуации можно найти выход — использовать методы кросс-валидации, получившие широкое распространение в связи с развитием методов машинного обучения [20]. Суть метода k-кратной перекрестной проверки (k-cross-validation) состоит в следующем: поочередно каждое из k подмножеств набора данных исследователей выступает в роли тестовой выборки, а оставшиеся k — 1 выступают в роли обучающей выборки (рис. 3, б). Далее значение k увеличивается на единицу, и всего получается k итераций, значение k выбирается в интервале от 3 до 10 [20].

Разновидностью метода кросс-валидации является метод скользящего экзамена (leave-one-out) [21]. При его реализации на каждой итерации поочередно удаляются из обучающей выборки или одно наблюдение, или набор наблюдений (данных о пациентах), а на оставшейся части строится регрессионная модель, с помощью которой затем выполняется прогноз вероятности развития исхода. После сравнения прогнозируемого исхода с реальным исходом удаленные данные пациента или группы пациентов возвращаются в исходную выборку. Эта процедура впоследствии многократно повторяется, что может занимать достаточно длительное время.

Таким образом, в случае невозможности получения внешних данных для тестирования регрессионной модели можно использовать исключительно собственные данные. Недостатком методов перекрестной проверки является уменьшение размеров обучающей и тестовой выборок, что может негативным образом сказаться на качестве моделей.

Заключение

Наличие множества перекрестных взаимосвязей между изучаемыми факторами (демографическими данными, сопутствующими заболеваниями, несколькими медицинскими препаратами, используемыми одновременно или последовательно и т.д.) существенно затрудняет интерпретацию результатов, полученных в результате применения методов простого сравнения (одномерный анализ). Более того, полученные подобным образом результаты могут ввести в заблуждение даже опытного клинициста-исследователя и подтолкнуть к ложным выводам или заключению. По сути дела, одномерный анализ используется в настоящее время в серьезных исследованиях только для предварительной оценки результатов и создания условий для проведения регрессионного анализа. Без использования методов многофакторной статистики трудно рассчитывать на точность конечного результата.

Ведущие научные журналы к этому заключению пришли достаточно давно и не принимают к публикации статьи, если статистические методы, использованные для обоснования заключений и выводов, вызывают хотя бы малейшие сомнения.

Авторы заявляют об отсутствии конфликта интересов.

The authors declare no conflicts of interest.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail



Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.