Comparison of the predictive values of traditional cardiovascular risk assessment methods using SCORE and FRAMINGHAM scales, machine learning technologies «INTEREPID»

Mishkin I.A.; Kontsevaya A.V.; Gusev A.V.; Saharov A.A.; Drapkina O.M.

doi:https://doi.org/10.17116/profmed20242702196

Введение

В связи с высокой заболеваемостью и смертностью от болезней системы кровообращения, а также высокими затратами на лечение данных патологий приоритетом системы здравоохранения в их отношении является профилактика [1]. Своевременные профилактические меры будут способствовать снижению числа случаев преждевременной смерти лиц трудоспособного возраста от болезней системы кровообращения, что в результате приведет к увеличению продолжительности жизни населения [2]. Данная цель соответствует утвержденному национальному проекту «Здравоохранение», согласно которому к 2025 г. необходимо добиться повышения средней продолжительности жизни до 76 лет, а к 2030 г. — до 80 лет [3].

Сегодня в основе концепции профилактики сердечно-сосудистых заболеваний лежит оценка сердечно-сосудистого риска (ССР) [4]. Для стран Европейского региона, включая Россию, разработаны шкалы оценки относительного и абсолютного ССР — SCORE и SCORE2 [5, 6].

Для оценки ССР у здоровых людей также можно использовать шкалы Framingham (для популяции Северной Америки), РСЕ (ASCVD) и др. [7].

Математические алгоритмы данных шкал основаны на модели пропорциональных рисков — Cox-регрессии. Данная модель строит зависимость времени дожития, опираясь на независимые переменные. Cox-регрессия — полупараметрический метод. Риск наступления события является функцией, зависимой от времени, и позволяет выявить вероятность наступления события для объектов, которые находятся в группе риска [8]. Никаких предположений о виде функции интенсивности/риска не делается, однако все переменные должны линейно влиять на логарифм функции риска наступления события. По форме модель пропорциональных рисков схожа с моделью логистической регрессии [9].

В связи с этим шкалы, основанные на методе Cox-регрессии, имеют некоторые недостатки:

— линейность алгоритмов статистической обработки данных [7];

— невозможность адекватно оценить риск у людей пожилого и молодого возраста;

— неспособность отслеживать и учитывать изменения биологических показателей в организме людей в реальном времени.

Как результат, в большинстве случаев данные шкалы обладают средней детерминацией и имеют показатель ROC-анализа не выше 0,7 [10].

В связи с развитием информационных технологий и увеличением вычислительных мощностей активно исследуется тема применения технологий машинного обучения (ТМО) в сфере здравоохранения.

В отличие от традиционных статистических методов обработки информации ТМО позволяют учитывать скрытые нелинейные связи между факторами риска (ФР), самообучаться в зависимости от изменения факторов в процессе жизни и включения новых предикторов, одновременно анализировать множество ФР в реальном времени. Для использования ТМО не требуются цензурируемые переменные, модель работает по методу классификатора. Сделано предположение, что данное преимущество позволяет снизить затраты на проведение длительных проспективных исследований и использовать для обучения данные, полученные в одномоментных скрининговых исследованиях [11—14]. Актуальным является исследование по сравнению прогностических возможностей традиционных шкал риска и методов машинного обучения.

Цель исследования — сравнить прогностические возможности шкал SCORE, Framingham и одного из методов машинного обучения на базе данных исследования «ИНТЕРЭПИД».

Материал и методы

Работа выполнена на основании данных международного проспективного исследования «ИНТЕРЭПИД», проведенного в 2011—2016 гг. [15], и представляет собой эпидемиологическое исследование с включением жителей поселков Волжского района Самарской области Российской Федерации и жителей Чуйской области Кыргызской Республики. Данное исследование преследовало две цели: одномоментное изучение распространенности ФР развития сердечно-сосудистых заболеваний у жителей малых городов и сельской местности в двух странах — в России (Самарская область) и Кыргызской Республике (Чуйская область); проспективное наблюдение за сформированной когортой этих стран в течение 4 лет. В исследование включено взрослое население из списка жителей сел и малых городов двух государств — участников исследования: возраст участников исследования составлял 20—64 года, это работающие и неработающие граждане, а также обучающиеся в образовательных учреждениях.

Проведено первичное обследование 1050 респондентов из числа репрезентативных выборок сельского населения Самарской области России, что составило 78% отклика, в Чуйской области Кыргызской Республики обследован 1341 респондент, 80% отклика.

Одномоментное обследование выполнено в 2011—2012 гг. Исследование в Самарской области России и Чуйской области Кыргызской Республики проводилось по единому протоколу «ИНТЕРЭПИД» с использованием опросников, специально разработанных специалистами ФГБУ «Приволжский федеральный медицинский исследовательский центр» Минздрава России.

Проспективный этап исследования проведен по специальному протоколу («Форме проспективного наблюдения пациента исследования «ИНТЕРЭПИД»), который включал: контакт с участником исследования; определение жизненного статуса; возникновение конечных точек; верификацию случая смерти (медицинское свидетельство о смерти, гражданское свидетельство о смерти и опрос родственников); верификацию выбывших из исследования (отправку запроса о жизненном статусе пациента в паспортный отдел по месту жительства или в ЗАГС); верификацию нефатальных конечных точек (амбулаторная карта, выписка из истории болезни, опрос участника исследования, опрос родственника). Контроль жизненного статуса осуществлен через 4 года от момента первичного осмотра респондента.

Материалом для работы послужили результаты сбора данных по «Карте профилактического обследования» и «Форме проспективного наблюдения пациента исследования «ИНТЕРЭПИД». Всего полученная выборка содержала информацию об 1050 участниках когорты Самарской области (447 (42,6%) мужчинах, средний возраст 50±2,3 года, 603 (57,4%) женщинах, средний возраст 49,3±1,9 года) и о 1341 участнике когорты Кыргызской Республики (575 (42,9%) мужчинах, средний возраст 40±2,1 года, 766 (57,1%) женщинах, средний возраст 40,9±1,8 года), прошедших наблюдение в течение 4 лет. Суммарно обе когорты насчитывали 2391 наблюдение. Социально-демографический состав двух когорт исследования представлен в табл. 1.

Таблица 1. Социально-демографический состав двух когорт исследования «ИНТЕРЭПИД»

Показатель	База данных исследования		Всего
Показатель	Самарская область	Кыргызская Республика	Всего
Национальность, n (%)
кыргызы	0 (0,00)	758 (56,50)	758 (31,60)
русские	1050 (100,00)	482 (35,90)	1532 (64,10)
другие народы	0 (0,00)	101 (7,60)	101 (4,30)
всего	1050 (100,00)	1341 (100,00)	2391 (100,00)
Образование, n (%)
высшее	196 (18,60)	404 (30,10)	600 (25,10)
незаконченное высшее	46 (4,20)	93 (6,90)	139 (5,80)
среднее / среднее специальное	778 (74,50)	827 (61,70)	1605 (67,30)
начальное или ниже	30 (2,70)	17 (1,30)	47 (1,90)
всего	1050 (100,00)	1341 (100,00)	2391 (100,00)
Семейное положение, n (%)
никогда не был женат (не была замужем)	118 (11,00)	221 (16,50)	339 (14,10)
женат (замужем) / гражданский брак	744 (71,40)	915 (68,20)	1659 (69,60)
разведен(а)	118 (11,10)	100 (7,50)	218 (9,00)
вдовец (вдова)	70 (6,60)	105 (7,80)	175 (7,30)
всего	1050 (100,00)	1341 (100,00)	2391 (100,00)
Работа/занятость, n (%)
работает	773 (73,90)	785 (58,50)	1558 (65,30)
никогда не работал(а)	8 (0,80)	153 (11,40)	161 (6,80)
сейчас не работает / безработный(-ая)	103 (9,70)	248 (18,50)	351 (14,60)
не работает (пенсия по возрасту)	123 (11,50)	133 (9,90)	256 (10,60)
не работает (пенсия по инвалидности)	43 (4,10)	22 (1,60)	65 (2,70)
всего	1050 (100,00)	1341 (100,00)	2391 (100,00)

Примечание. p<0,001.

Обе когорты разделены на четыре группы: 1-я группа для каждой когорты (всего две группы) — пациенты, перенесшие сердечно-сосудистые события, включая фатальные исходы следующих заболеваний: случаи развития ишемической болезни сердца (I20—I25 по МКБ-10) и случаи развития острого нарушения мозгового кровообращения (I60—I64 по МКБ-10), за 4-летний период наблюдения для Самары (n=253; 24,1%) и для Кыргызской Республики (n=280; 20,9%); 2-я группа для каждой когорты (всего две группы) — лица без сердечно-сосудистых событий за период наблюдения для Самары (n=797; 75,9%) и для Кыргызской Республики (n=1061; 79,1%). Фатальные и нефатальные события, вызванные не болезнями системы кровообращения, а также неизвестные исходы в процессе наблюдения в исследование не включались. Конечная точка для 1-х групп обозначена «1» — наступление события, для 2-х групп — «0» — событие не наступило.

Для построения модели прогноза мы использовали два алгоритма ТМО в среде программирования Python v. 3.11.1:

— ExtraTreesClassifier из пакета sklearn.ensemble — реализация алгоритма дополнительных деревьев решений для Самарской когорты (рис. 1). Это непараметрический контролируемый метод машинного обучения, используемый для классификации. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой независимой переменной, изучая простые правила принятия решений, выведенные из характеристик данных;

Рис. 1. Решетка гиперпараметров алгоритма ExtraTreesClassifier для самарской когорты.

— GradientBoostingClassifier из пакета sklearn.ensemble — реализация алгоритма градиентного бустинга для кыргызской когорты и всей когорты «ИНТЕРЭПИД» (рис. 2). Суть метода заключается в построении ансамбля слабых моделей (например, деревьев принятия решений), в котором (в отличие от бэггинга) модели строятся не независимо (параллельно), а последовательно. Это означает, что следующее дерево учится на ошибках предыдущего, затем этот процесс повторяется, наращивая количество слабых моделей.

Рис. 2. Решетка гиперпараметров алгоритма GradientBoostingClassifier для кыргызской когорты и для всей когорты «ИНТЕРЭПИД».

Данные алгоритмы использованы, поскольку продемонстрировали наилучшую эффективность в нашем предыдущем исследовании на этих когортах [14].

В качестве предикторов для модели ТМО использовали 191 независимую переменную, касающуюся анамнеза, особенностей образа жизни, данные лабораторных и инструментальных исследований (табл. 2).

Таблица 2. Независимые переменные, включенные в анализ

Название переменной	n
Социальный статус	6
Наследственность	14
Курение	10
Употребление алкоголя	10
Физическая активность	3
Питание	22
Симптомы ишемической болезни сердца	15
Сопутствующие заболевания	10
Медикаментозная терапия	10
Артериальное давление	4
Пульс	2
Антропометрия	4
Лабораторные исследования	5
Инструментальные исследования	4
Обращаемость в больницу	10
Психоэмоциональный статус	15
Прочее	47
Всего	191

Перед анализом данные подвергли очистке. В первую очередь исключили переменные с количеством пропущенных значений ≥50% — 36 (18,8%) переменных. Среди некоторых переменных встречались аномальные значения. Проведя анализ, мы нашли 0,06% девиаций. Поскольку доля оказалась небольшой, данные значения удалены. Затем мы произвели операцию восстановления среди переменных с количеством пропущенных значений <50% — 155 (81,2%) переменных. В качестве алгоритма восстановления пропущенных значений выбран способ IterativeImputer, включенный в пакет sklearn.impute языка программирования Python. Благодаря использованию данного алгоритма нам удалось восстановить до 46% пропущенных значений. Для тестирования модели ТМО использовали алгоритм GridSearchCV из пакета sklearn.model_selection, который реализует метод кросс-валидации (cross validation — CV) на 5 фолдах (5`-fold cross-validation). Один фолд — это часть выборки, которая подбирается рандомизированно. Таким образом, выборка разделена на пять независимых подвыборок для проведения внутренней валидации алгоритма.

Для оценки ССР по шкале SCORE использовали пять переменных: пол, возраст, показатель систолического артериального давления, уровень общего холестерина плазмы крови, статус курения. Для оценки риска по алгоритму шкалы Framingham применены восемь предикторов: пол, возраст, холестерин, липопротеины низкой плотности, систолическое артериальное давление, наличие антигипертензивной терапии, статус курения, наличие сахарного диабета.

Для оценки эффективности моделей прогноза использовали показатели ROC-анализа (ROC — Receiver Operating Characteristic (рабочая характеристика приемника)). Результатом данного анализа служит метрика AUC — Area Under the Curve (площадь под кривой), которая позволяет оценить качество классификации. Сравнение табличных данных проводили с использованием непараметрического критерия χ². Статистически значимыми различия считали при p<0,05.

Статистическая обработка данных проведена с использованием прикладных программ Microsoft Excel 2021 и IBM SPSS Statistics 26.

Результаты

Результаты ROC-анализа для трех когорт показали, что для выборки из Самарской области значение AUC превалировало у ExtraTreesClassifier по сравнению со значениями AUC у SCORE и Framingham. При этом последние два показателя оказались статистически незначимыми. Данный результат можно объяснить обнаружившимся дисбалансом среди классов переменных и большим количеством пропущенных значений в данной выборке.

В кыргызской когорте данного дисбаланса не было, и нам удалось получить достаточно хорошие результаты классификации. На первом месте оказалась шкала Framingham, результаты AUC у которой в среднем превалировали над результатами AUC у GradientBoostingClassifier на 2,7%. На последнем месте оказалась шкала SCORE (табл. 3).

Таблица 3. Сравнение показателей AUC для SCORE, Framingham и алгоритмов технологий машинного обучения для трех когорт

Алгоритм	AUC	Стандартная ошибка	p	Асимптотический 95% ДИ
Алгоритм	AUC	Стандартная ошибка	p	нижняя граница	верхняя граница
Самарская когорта
ExtraTreesClassifier*	0,609	0,029	<0,001	0,553	0,665
Framingham	0,458	0,029	0,138	0,401	0,516
SCORE	0,474	0,027	0,356	0,421	0,528
Кыргызская когорта
GradientBoostingClassifier	0,806	0,014	<0,001	0,777	0,834
Framingham*	0,828	0,013	<0,001	0,802	0,853
SCORE	0,719	0,019	<0,001	0,681	0,757
Обе когорты
GradientBoostingClassifier*	0,766	0,013	<0,001	0,741	0,791
Framingham	0,72	0,014	<0,001	0,692	0,747
SCORE	0,655	0,016	<0,001	0,624	0,687

Примечание. * — лучший алгоритм.

Из-за отсутствия статистически значимых различий во влиянии национальной принадлежности на зависимую переменную было решено объединить данные когорты (жителей Самарской области России и Чуйской области Кыргызской Республики) в одну выборку.

Для всей когорты наилучшие результаты получены при использовании GradientBoostingClassifier: превалирование по результатам AUC на 6,4% над Framingham и на 16,9% над SCORE (в среднем на 11,7±5,2% над традиционными шкалами).

Обсуждение

В ранее проведенном нами систематическом обзоре, в котором сравнивали качество детерминации ТМО и традиционных шкал оценки ССР, нам удалось определить, что в среднем алгоритмы ТМО на 9,3% лучше справляются со своей задачей на табличных данных, чем шкалы [14].

А.В. Гусев и соавт. провели сравнительный анализ прогностических возможностей использования ТМО и традиционных шкал оценки ССР [15]. Авторы сошлись во мнении, что в большинстве случаев ТМО имели преимущество по сравнению со шкалами, что соответствует результатам проведенного нами исследования.

Авторы провели собственное исследование, в котором сравнили возможности использования искусственной нейронной сети (ИНС) прямого распространения и шкалы Framingham. В качестве выборки использовали данные собственного проспективного 10-летнего исследования, которое включает записи о 2236 испытуемых. Для тестирования выборка разделена на обучающую (75%) и тестовую (25%). В результате для шкалы Framingham точность составила 0,7, AUC — 0,59, для ИНС точность — 0,78, AUC — 0,84 [10].

Y. Wang и соавт. также провели сравнение эффективности детерминации пациентов по уровню риска между четырьмя алгоритмами ТМО (логистическая регрессия, случайный лес, метод k-ближайших соседей, нейронные сети прямого распространения) и шкалой Framingham. Данными служили записи электронных медицинских карт жителей Китая, собранные в течение 2 лет. Объем выборки был аналогичен объему нашей выборки и составлял 2608 человек, количество предикторов было в 6,5 раза меньше и составило 29. Валидацию проводили в отличие от нашего исследования на 4 фолдах. В результате наилучшим алгоритмом оказались ИНС — с AUC 0,82 и точностью 0,74. Шкала Framingham продемонстрировала AUC 0,62 и точность 0,65 [16].

В исследовании S. Sajeev и соавт. использовались данные трех когорт, суммарно 46 305 записей. В качестве предикторов использовались 8 переменных (пол, возраст, холестерин, липопротеины низкой плотности, систолическое артериальное давление, наличие антигипертензивной терапии, статус курения, наличие сахарного диабета) [17]. Сравнение проводилось между шкалой Framingham и логистической регрессией, дискриминантным анализом, методом опорных векторов и случайным лесом. Учитывая достаточно большой объем исходной выборки и небольшое количество предикторов, следует отметить, что линейные методы оказались лучше. Суммарно для всех трех когорт наилучшими алгоритмами оказались линейная регрессия и дискриминантный анализ — с AUC 0,85. Алгоритм шкалы Framingham продемонстрировал AUC 0,8.

A. Orfanoudaki и соавт. провели сравнение на когорте (n=4385) с применением алгоритма Framingham и четырех методов ТМО (таких как логистическая регрессия, случайный лес, градиентный бустинг и деревья решений). Наилучшие показатели продемонстрировал градиентный бустинг (AUC от 0,75 до 0,88). Алгоритм Framingham показал AUC от 0,64 до 0,74 [18]. Представленные результаты соответствуют нашим данным.

A.C. Dimopoulos и соавт. использовали данные проспективного исследования ATTICA (n=2020) для сравнения работы шкалы Hellenic SCORE и трех алгоритмов ТМО (таких как дерево решений, случайный лес и метод k-ближайших соседей). В анализ включено 15 переменных для ТМО и 5 для SCORE. Для ТМО точность варьировала между 0,65 и 0,84 (максимальная для случайного леса), для Hellenic SCORE точность составила 0,85 [19]. Данная работа подчеркивает, что с меньшим количеством предикторов лучше справляются традиционные линейные методы обработки данных — в отличие от ТМО, которые лучше работают с большим количеством независимых переменных.

Несмотря на разнящиеся результаты приведенных исследований, А.В. Гусев и соавт. отмечают такие преимущества внедрения искусственного интеллекта для составления прогноза ССР, как автоматический анализ большого количества информации (Big Data), содержащейся в электронных медицинских картах [20]. Интеграция алгоритмов в медицинские информационные системы и системы поддержки принятия врачебных решений уже сейчас помогает снизить количество врачебных ошибок.

По данным издания Grand View Research, высокая распространенность и доступность мобильных приложений демонстрируют быстрый рост рынка искусственного интеллекта в здравоохранении [21]. Особенно это касается приложений, позволяющих пользователю самостоятельно контролировать качество своего здоровья, помогающих ему лечить болезни и поддерживать хорошее самочувствие. Накопление и обмен данными между пользователем, клиникой и непосредственно врачом в совокупности с анализом с помощью искусственного интеллекта поможет держать ФР под постоянным контролем и заранее предупреждать развитие неблагоприятных исходов.

Ограничения

В проведенном нами исследовании невозможно полностью репрезентативно оценить абсолютные преимущества оценки ССР с помощью ТМО перед традиционными шкалами, поскольку период наблюдения, на котором базируются шкалы, составляет 10 лет, а период нашего проспективного исследования составил 4 года. Следует также отметить, что шкалы прошли внешнюю валидацию на большом количестве независимых выборок в отличие от нашего алгоритма, для которого проведена внутренняя валидация. При сравнении эффективности с применением шкалы Framingham на российской популяции также следует учитывать факт того, что она создана и валидизирована на североамериканской популяции.

Заключение

По результатам данного исследования можно заключить, что качество детерминации пациентов по уровню сердечно-сосудистого риска в большинстве случаев лучше при использовании алгоритмов технологий машинного обучения. Однако следует отметить, что в некоторых ситуациях наилучших результатов прогноза удавалось достичь с использованием традиционных шкал. При этом во всех случаях в первую очередь следует обращать внимание на качество выборки, на основании которой строилась математическая модель, и на методы валидации.

Таким образом, использование технологий машинного обучения в оценке сердечно-сосудистого риска имеет большие перспективы и, возможно, в будущем заменит традиционные шкалы оценки сердечно-сосудистого риска. Однако для получения оптимального алгоритма необходимо проведение более качественных и объемных исследований.

Участие авторов: концепция и дизайн исследования — И.А. Мишкин, А.В. Концевая, А.В. Гусев, А.А. Сахаров, О.М. Драпкина; сбор и обработка материала — И.А. Мишкин, А.В. Концевая, А.В. Гусев, А.А. Сахаров; статистический анализ данных — И.А. Мишкин, А.В. Гусев, А.А. Сахаров; написание текста — И.А. Мишкин, А.В. Концевая, А.В. Гусев, А.А. Сахаров, О.М. Драпкина; редактирование — А.В. Концевая, А.В. Гусев.

Авторы заявляют об отсутствии конфликта интересов.

ЦЕЛЬ ИССЛЕДОВАНИЯ

МАТЕРИАЛ И МЕТОДЫ

РЕЗУЛЬТАТЫ