Введение
В связи с высокой заболеваемостью и смертностью от болезней системы кровообращения, а также высокими затратами на лечение данных патологий приоритетом системы здравоохранения в их отношении является профилактика [1]. Своевременные профилактические меры будут способствовать снижению числа случаев преждевременной смерти лиц трудоспособного возраста от болезней системы кровообращения, что в результате приведет к увеличению продолжительности жизни населения [2]. Данная цель соответствует утвержденному национальному проекту «Здравоохранение», согласно которому к 2025 г. необходимо добиться повышения средней продолжительности жизни до 76 лет, а к 2030 г. — до 80 лет [3].
Сегодня в основе концепции профилактики сердечно-сосудистых заболеваний лежит оценка сердечно-сосудистого риска (ССР) [4]. Для стран Европейского региона, включая Россию, разработаны шкалы оценки относительного и абсолютного ССР — SCORE и SCORE2 [5, 6].
Для оценки ССР у здоровых людей также можно использовать шкалы Framingham (для популяции Северной Америки), РСЕ (ASCVD) и др. [7].
Математические алгоритмы данных шкал основаны на модели пропорциональных рисков — Cox-регрессии. Данная модель строит зависимость времени дожития, опираясь на независимые переменные. Cox-регрессия — полупараметрический метод. Риск наступления события является функцией, зависимой от времени, и позволяет выявить вероятность наступления события для объектов, которые находятся в группе риска [8]. Никаких предположений о виде функции интенсивности/риска не делается, однако все переменные должны линейно влиять на логарифм функции риска наступления события. По форме модель пропорциональных рисков схожа с моделью логистической регрессии [9].
В связи с этим шкалы, основанные на методе Cox-регрессии, имеют некоторые недостатки:
— линейность алгоритмов статистической обработки данных [7];
— невозможность адекватно оценить риск у людей пожилого и молодого возраста;
— неспособность отслеживать и учитывать изменения биологических показателей в организме людей в реальном времени.
Как результат, в большинстве случаев данные шкалы обладают средней детерминацией и имеют показатель ROC-анализа не выше 0,7 [10].
В связи с развитием информационных технологий и увеличением вычислительных мощностей активно исследуется тема применения технологий машинного обучения (ТМО) в сфере здравоохранения.
В отличие от традиционных статистических методов обработки информации ТМО позволяют учитывать скрытые нелинейные связи между факторами риска (ФР), самообучаться в зависимости от изменения факторов в процессе жизни и включения новых предикторов, одновременно анализировать множество ФР в реальном времени. Для использования ТМО не требуются цензурируемые переменные, модель работает по методу классификатора. Сделано предположение, что данное преимущество позволяет снизить затраты на проведение длительных проспективных исследований и использовать для обучения данные, полученные в одномоментных скрининговых исследованиях [11—14]. Актуальным является исследование по сравнению прогностических возможностей традиционных шкал риска и методов машинного обучения.
Цель исследования — сравнить прогностические возможности шкал SCORE, Framingham и одного из методов машинного обучения на базе данных исследования «ИНТЕРЭПИД».
Материал и методы
Работа выполнена на основании данных международного проспективного исследования «ИНТЕРЭПИД», проведенного в 2011—2016 гг. [15], и представляет собой эпидемиологическое исследование с включением жителей поселков Волжского района Самарской области Российской Федерации и жителей Чуйской области Кыргызской Республики. Данное исследование преследовало две цели: одномоментное изучение распространенности ФР развития сердечно-сосудистых заболеваний у жителей малых городов и сельской местности в двух странах — в России (Самарская область) и Кыргызской Республике (Чуйская область); проспективное наблюдение за сформированной когортой этих стран в течение 4 лет. В исследование включено взрослое население из списка жителей сел и малых городов двух государств — участников исследования: возраст участников исследования составлял 20—64 года, это работающие и неработающие граждане, а также обучающиеся в образовательных учреждениях.
Проведено первичное обследование 1050 респондентов из числа репрезентативных выборок сельского населения Самарской области России, что составило 78% отклика, в Чуйской области Кыргызской Республики обследован 1341 респондент, 80% отклика.
Одномоментное обследование выполнено в 2011—2012 гг. Исследование в Самарской области России и Чуйской области Кыргызской Республики проводилось по единому протоколу «ИНТЕРЭПИД» с использованием опросников, специально разработанных специалистами ФГБУ «Приволжский федеральный медицинский исследовательский центр» Минздрава России.
Проспективный этап исследования проведен по специальному протоколу («Форме проспективного наблюдения пациента исследования «ИНТЕРЭПИД»), который включал: контакт с участником исследования; определение жизненного статуса; возникновение конечных точек; верификацию случая смерти (медицинское свидетельство о смерти, гражданское свидетельство о смерти и опрос родственников); верификацию выбывших из исследования (отправку запроса о жизненном статусе пациента в паспортный отдел по месту жительства или в ЗАГС); верификацию нефатальных конечных точек (амбулаторная карта, выписка из истории болезни, опрос участника исследования, опрос родственника). Контроль жизненного статуса осуществлен через 4 года от момента первичного осмотра респондента.
Материалом для работы послужили результаты сбора данных по «Карте профилактического обследования» и «Форме проспективного наблюдения пациента исследования «ИНТЕРЭПИД». Всего полученная выборка содержала информацию об 1050 участниках когорты Самарской области (447 (42,6%) мужчинах, средний возраст 50±2,3 года, 603 (57,4%) женщинах, средний возраст 49,3±1,9 года) и о 1341 участнике когорты Кыргызской Республики (575 (42,9%) мужчинах, средний возраст 40±2,1 года, 766 (57,1%) женщинах, средний возраст 40,9±1,8 года), прошедших наблюдение в течение 4 лет. Суммарно обе когорты насчитывали 2391 наблюдение. Социально-демографический состав двух когорт исследования представлен в табл. 1.
Таблица 1. Социально-демографический состав двух когорт исследования «ИНТЕРЭПИД»
Показатель | База данных исследования | Всего | |
Самарская область | Кыргызская Республика | ||
Национальность, n (%) | |||
кыргызы | 0 (0,00) | 758 (56,50) | 758 (31,60) |
русские | 1050 (100,00) | 482 (35,90) | 1532 (64,10) |
другие народы | 0 (0,00) | 101 (7,60) | 101 (4,30) |
всего | 1050 (100,00) | 1341 (100,00) | 2391 (100,00) |
Образование, n (%) | |||
высшее | 196 (18,60) | 404 (30,10) | 600 (25,10) |
незаконченное высшее | 46 (4,20) | 93 (6,90) | 139 (5,80) |
среднее / среднее специальное | 778 (74,50) | 827 (61,70) | 1605 (67,30) |
начальное или ниже | 30 (2,70) | 17 (1,30) | 47 (1,90) |
всего | 1050 (100,00) | 1341 (100,00) | 2391 (100,00) |
Семейное положение, n (%) | |||
никогда не был женат (не была замужем) | 118 (11,00) | 221 (16,50) | 339 (14,10) |
женат (замужем) / гражданский брак | 744 (71,40) | 915 (68,20) | 1659 (69,60) |
разведен(а) | 118 (11,10) | 100 (7,50) | 218 (9,00) |
вдовец (вдова) | 70 (6,60) | 105 (7,80) | 175 (7,30) |
всего | 1050 (100,00) | 1341 (100,00) | 2391 (100,00) |
Работа/занятость, n (%) | |||
работает | 773 (73,90) | 785 (58,50) | 1558 (65,30) |
никогда не работал(а) | 8 (0,80) | 153 (11,40) | 161 (6,80) |
сейчас не работает / безработный(-ая) | 103 (9,70) | 248 (18,50) | 351 (14,60) |
не работает (пенсия по возрасту) | 123 (11,50) | 133 (9,90) | 256 (10,60) |
не работает (пенсия по инвалидности) | 43 (4,10) | 22 (1,60) | 65 (2,70) |
всего | 1050 (100,00) | 1341 (100,00) | 2391 (100,00) |
Примечание. p<0,001.
Обе когорты разделены на четыре группы: 1-я группа для каждой когорты (всего две группы) — пациенты, перенесшие сердечно-сосудистые события, включая фатальные исходы следующих заболеваний: случаи развития ишемической болезни сердца (I20—I25 по МКБ-10) и случаи развития острого нарушения мозгового кровообращения (I60—I64 по МКБ-10), за 4-летний период наблюдения для Самары (n=253; 24,1%) и для Кыргызской Республики (n=280; 20,9%); 2-я группа для каждой когорты (всего две группы) — лица без сердечно-сосудистых событий за период наблюдения для Самары (n=797; 75,9%) и для Кыргызской Республики (n=1061; 79,1%). Фатальные и нефатальные события, вызванные не болезнями системы кровообращения, а также неизвестные исходы в процессе наблюдения в исследование не включались. Конечная точка для 1-х групп обозначена «1» — наступление события, для 2-х групп — «0» — событие не наступило.
Для построения модели прогноза мы использовали два алгоритма ТМО в среде программирования Python v. 3.11.1:
— ExtraTreesClassifier из пакета sklearn.ensemble — реализация алгоритма дополнительных деревьев решений для Самарской когорты (рис. 1). Это непараметрический контролируемый метод машинного обучения, используемый для классификации. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой независимой переменной, изучая простые правила принятия решений, выведенные из характеристик данных;
Рис. 1. Решетка гиперпараметров алгоритма ExtraTreesClassifier для самарской когорты.
— GradientBoostingClassifier из пакета sklearn.ensemble — реализация алгоритма градиентного бустинга для кыргызской когорты и всей когорты «ИНТЕРЭПИД» (рис. 2). Суть метода заключается в построении ансамбля слабых моделей (например, деревьев принятия решений), в котором (в отличие от бэггинга) модели строятся не независимо (параллельно), а последовательно. Это означает, что следующее дерево учится на ошибках предыдущего, затем этот процесс повторяется, наращивая количество слабых моделей.
Рис. 2. Решетка гиперпараметров алгоритма GradientBoostingClassifier для кыргызской когорты и для всей когорты «ИНТЕРЭПИД».
Данные алгоритмы использованы, поскольку продемонстрировали наилучшую эффективность в нашем предыдущем исследовании на этих когортах [14].
В качестве предикторов для модели ТМО использовали 191 независимую переменную, касающуюся анамнеза, особенностей образа жизни, данные лабораторных и инструментальных исследований (табл. 2).
Таблица 2. Независимые переменные, включенные в анализ
Название переменной | n |
Социальный статус | 6 |
Наследственность | 14 |
Курение | 10 |
Употребление алкоголя | 10 |
Физическая активность | 3 |
Питание | 22 |
Симптомы ишемической болезни сердца | 15 |
Сопутствующие заболевания | 10 |
Медикаментозная терапия | 10 |
Артериальное давление | 4 |
Пульс | 2 |
Антропометрия | 4 |
Лабораторные исследования | 5 |
Инструментальные исследования | 4 |
Обращаемость в больницу | 10 |
Психоэмоциональный статус | 15 |
Прочее | 47 |
Всего | 191 |
Перед анализом данные подвергли очистке. В первую очередь исключили переменные с количеством пропущенных значений ≥50% — 36 (18,8%) переменных. Среди некоторых переменных встречались аномальные значения. Проведя анализ, мы нашли 0,06% девиаций. Поскольку доля оказалась небольшой, данные значения удалены. Затем мы произвели операцию восстановления среди переменных с количеством пропущенных значений <50% — 155 (81,2%) переменных. В качестве алгоритма восстановления пропущенных значений выбран способ IterativeImputer, включенный в пакет sklearn.impute языка программирования Python. Благодаря использованию данного алгоритма нам удалось восстановить до 46% пропущенных значений. Для тестирования модели ТМО использовали алгоритм GridSearchCV из пакета sklearn.model_selection, который реализует метод кросс-валидации (cross validation — CV) на 5 фолдах (5`-fold cross-validation). Один фолд — это часть выборки, которая подбирается рандомизированно. Таким образом, выборка разделена на пять независимых подвыборок для проведения внутренней валидации алгоритма.
Для оценки ССР по шкале SCORE использовали пять переменных: пол, возраст, показатель систолического артериального давления, уровень общего холестерина плазмы крови, статус курения. Для оценки риска по алгоритму шкалы Framingham применены восемь предикторов: пол, возраст, холестерин, липопротеины низкой плотности, систолическое артериальное давление, наличие антигипертензивной терапии, статус курения, наличие сахарного диабета.
Для оценки эффективности моделей прогноза использовали показатели ROC-анализа (ROC — Receiver Operating Characteristic (рабочая характеристика приемника)). Результатом данного анализа служит метрика AUC — Area Under the Curve (площадь под кривой), которая позволяет оценить качество классификации. Сравнение табличных данных проводили с использованием непараметрического критерия χ2. Статистически значимыми различия считали при p<0,05.
Статистическая обработка данных проведена с использованием прикладных программ Microsoft Excel 2021 и IBM SPSS Statistics 26.
Результаты
Результаты ROC-анализа для трех когорт показали, что для выборки из Самарской области значение AUC превалировало у ExtraTreesClassifier по сравнению со значениями AUC у SCORE и Framingham. При этом последние два показателя оказались статистически незначимыми. Данный результат можно объяснить обнаружившимся дисбалансом среди классов переменных и большим количеством пропущенных значений в данной выборке.
В кыргызской когорте данного дисбаланса не было, и нам удалось получить достаточно хорошие результаты классификации. На первом месте оказалась шкала Framingham, результаты AUC у которой в среднем превалировали над результатами AUC у GradientBoostingClassifier на 2,7%. На последнем месте оказалась шкала SCORE (табл. 3).
Таблица 3. Сравнение показателей AUC для SCORE, Framingham и алгоритмов технологий машинного обучения для трех когорт
Алгоритм | AUC | Стандартная ошибка | p | Асимптотический 95% ДИ | |
нижняя граница | верхняя граница | ||||
Самарская когорта | |||||
ExtraTreesClassifier* | 0,609 | 0,029 | <0,001 | 0,553 | 0,665 |
Framingham | 0,458 | 0,029 | 0,138 | 0,401 | 0,516 |
SCORE | 0,474 | 0,027 | 0,356 | 0,421 | 0,528 |
Кыргызская когорта | |||||
GradientBoostingClassifier | 0,806 | 0,014 | <0,001 | 0,777 | 0,834 |
Framingham* | 0,828 | 0,013 | <0,001 | 0,802 | 0,853 |
SCORE | 0,719 | 0,019 | <0,001 | 0,681 | 0,757 |
Обе когорты | |||||
GradientBoostingClassifier* | 0,766 | 0,013 | <0,001 | 0,741 | 0,791 |
Framingham | 0,72 | 0,014 | <0,001 | 0,692 | 0,747 |
SCORE | 0,655 | 0,016 | <0,001 | 0,624 | 0,687 |
Примечание. * — лучший алгоритм.
Из-за отсутствия статистически значимых различий во влиянии национальной принадлежности на зависимую переменную было решено объединить данные когорты (жителей Самарской области России и Чуйской области Кыргызской Республики) в одну выборку.
Для всей когорты наилучшие результаты получены при использовании GradientBoostingClassifier: превалирование по результатам AUC на 6,4% над Framingham и на 16,9% над SCORE (в среднем на 11,7±5,2% над традиционными шкалами).
Обсуждение
В ранее проведенном нами систематическом обзоре, в котором сравнивали качество детерминации ТМО и традиционных шкал оценки ССР, нам удалось определить, что в среднем алгоритмы ТМО на 9,3% лучше справляются со своей задачей на табличных данных, чем шкалы [14].
А.В. Гусев и соавт. провели сравнительный анализ прогностических возможностей использования ТМО и традиционных шкал оценки ССР [15]. Авторы сошлись во мнении, что в большинстве случаев ТМО имели преимущество по сравнению со шкалами, что соответствует результатам проведенного нами исследования.
Авторы провели собственное исследование, в котором сравнили возможности использования искусственной нейронной сети (ИНС) прямого распространения и шкалы Framingham. В качестве выборки использовали данные собственного проспективного 10-летнего исследования, которое включает записи о 2236 испытуемых. Для тестирования выборка разделена на обучающую (75%) и тестовую (25%). В результате для шкалы Framingham точность составила 0,7, AUC — 0,59, для ИНС точность — 0,78, AUC — 0,84 [10].
Y. Wang и соавт. также провели сравнение эффективности детерминации пациентов по уровню риска между четырьмя алгоритмами ТМО (логистическая регрессия, случайный лес, метод k-ближайших соседей, нейронные сети прямого распространения) и шкалой Framingham. Данными служили записи электронных медицинских карт жителей Китая, собранные в течение 2 лет. Объем выборки был аналогичен объему нашей выборки и составлял 2608 человек, количество предикторов было в 6,5 раза меньше и составило 29. Валидацию проводили в отличие от нашего исследования на 4 фолдах. В результате наилучшим алгоритмом оказались ИНС — с AUC 0,82 и точностью 0,74. Шкала Framingham продемонстрировала AUC 0,62 и точность 0,65 [16].
В исследовании S. Sajeev и соавт. использовались данные трех когорт, суммарно 46 305 записей. В качестве предикторов использовались 8 переменных (пол, возраст, холестерин, липопротеины низкой плотности, систолическое артериальное давление, наличие антигипертензивной терапии, статус курения, наличие сахарного диабета) [17]. Сравнение проводилось между шкалой Framingham и логистической регрессией, дискриминантным анализом, методом опорных векторов и случайным лесом. Учитывая достаточно большой объем исходной выборки и небольшое количество предикторов, следует отметить, что линейные методы оказались лучше. Суммарно для всех трех когорт наилучшими алгоритмами оказались линейная регрессия и дискриминантный анализ — с AUC 0,85. Алгоритм шкалы Framingham продемонстрировал AUC 0,8.
A. Orfanoudaki и соавт. провели сравнение на когорте (n=4385) с применением алгоритма Framingham и четырех методов ТМО (таких как логистическая регрессия, случайный лес, градиентный бустинг и деревья решений). Наилучшие показатели продемонстрировал градиентный бустинг (AUC от 0,75 до 0,88). Алгоритм Framingham показал AUC от 0,64 до 0,74 [18]. Представленные результаты соответствуют нашим данным.
A.C. Dimopoulos и соавт. использовали данные проспективного исследования ATTICA (n=2020) для сравнения работы шкалы Hellenic SCORE и трех алгоритмов ТМО (таких как дерево решений, случайный лес и метод k-ближайших соседей). В анализ включено 15 переменных для ТМО и 5 для SCORE. Для ТМО точность варьировала между 0,65 и 0,84 (максимальная для случайного леса), для Hellenic SCORE точность составила 0,85 [19]. Данная работа подчеркивает, что с меньшим количеством предикторов лучше справляются традиционные линейные методы обработки данных — в отличие от ТМО, которые лучше работают с большим количеством независимых переменных.
Несмотря на разнящиеся результаты приведенных исследований, А.В. Гусев и соавт. отмечают такие преимущества внедрения искусственного интеллекта для составления прогноза ССР, как автоматический анализ большого количества информации (Big Data), содержащейся в электронных медицинских картах [20]. Интеграция алгоритмов в медицинские информационные системы и системы поддержки принятия врачебных решений уже сейчас помогает снизить количество врачебных ошибок.
По данным издания Grand View Research, высокая распространенность и доступность мобильных приложений демонстрируют быстрый рост рынка искусственного интеллекта в здравоохранении [21]. Особенно это касается приложений, позволяющих пользователю самостоятельно контролировать качество своего здоровья, помогающих ему лечить болезни и поддерживать хорошее самочувствие. Накопление и обмен данными между пользователем, клиникой и непосредственно врачом в совокупности с анализом с помощью искусственного интеллекта поможет держать ФР под постоянным контролем и заранее предупреждать развитие неблагоприятных исходов.
Ограничения
В проведенном нами исследовании невозможно полностью репрезентативно оценить абсолютные преимущества оценки ССР с помощью ТМО перед традиционными шкалами, поскольку период наблюдения, на котором базируются шкалы, составляет 10 лет, а период нашего проспективного исследования составил 4 года. Следует также отметить, что шкалы прошли внешнюю валидацию на большом количестве независимых выборок в отличие от нашего алгоритма, для которого проведена внутренняя валидация. При сравнении эффективности с применением шкалы Framingham на российской популяции также следует учитывать факт того, что она создана и валидизирована на североамериканской популяции.
Заключение
По результатам данного исследования можно заключить, что качество детерминации пациентов по уровню сердечно-сосудистого риска в большинстве случаев лучше при использовании алгоритмов технологий машинного обучения. Однако следует отметить, что в некоторых ситуациях наилучших результатов прогноза удавалось достичь с использованием традиционных шкал. При этом во всех случаях в первую очередь следует обращать внимание на качество выборки, на основании которой строилась математическая модель, и на методы валидации.
Таким образом, использование технологий машинного обучения в оценке сердечно-сосудистого риска имеет большие перспективы и, возможно, в будущем заменит традиционные шкалы оценки сердечно-сосудистого риска. Однако для получения оптимального алгоритма необходимо проведение более качественных и объемных исследований.
Участие авторов: концепция и дизайн исследования — И.А. Мишкин, А.В. Концевая, А.В. Гусев, А.А. Сахаров, О.М. Драпкина; сбор и обработка материала — И.А. Мишкин, А.В. Концевая, А.В. Гусев, А.А. Сахаров; статистический анализ данных — И.А. Мишкин, А.В. Гусев, А.А. Сахаров; написание текста — И.А. Мишкин, А.В. Концевая, А.В. Гусев, А.А. Сахаров, О.М. Драпкина; редактирование — А.В. Концевая, А.В. Гусев.
Авторы заявляют об отсутствии конфликта интересов.