Список сокращений
КТ — компьютерная томография
ГМ — головной мозг
ВЧК — внутричерепные кровоизлияния
Введение
Внутричерепные кровоизлияния (ВЧК) как травматические, так и нетравматические (в том числе в результате геморрагического инсульта) являются серьезной проблемой, при которой важную роль играет ранняя постановка диагноза и своевременное начало лечения [1]. Лучевая семиотика ВЧК при компьютерной томографии (КТ) достаточно специфична для каждого подвида кровоизлияния [2]. Современные технологии, такие как компьютерное зрение, формируют решения, направленные на упрощение и ускорение распознавания и классификацию патологии на сериях КТ-изображений [3, 4].
В данном обзоре мы рассматриваем особенности наборов данных (датасетов), которые используются для обучения алгоритмов компьютерного зрения. Поиск литературы проводился в системах E-library и PubMed ввиду открытости и доступности этих баз.
После исключения статей, не подошедших под тематику обзора, дублей в поисковой выдаче, а также статей, не имеющих бесплатного доступа к своему полному тексту, было отобрано 21 оригинальное исследование [5—25].
При анализе работ выявлена тенденция их разделения на 3 больших группы. Первая их часть направлена на математическое описание принципов функционирования какого-либо алгоритма машинного обучения, созданного разработчиками [5—14]. В этой группе работ обучение проводилось на публичных наборах данных, собственные медицинские данные использовались редко. Вторая часть объединяет информацию о технико-математических особенностях алгоритма, метрики по обучению и тестированию и иногда — результаты проведенной клинической апробации [16, 19, 21, 22]. В эту же группу отнесены статьи, где коммерчески доступные алгоритмы проспективно тестировали в клинике с оценкой только метрик точности [15, 17, 18, 20]. В третьей группе работ проводится клиническая апробация алгоритма (чаще — коммерчески доступного), при этом также оценивают такие параметры, как время обработки исследования и время подготовки рентгенологического заключения [23—25]. Последняя группа работ представляла для нас наибольший интерес.
Базовые понятия машинного обучения
Искусственный интеллект (ИИ) в наиболее широком понимании — это любая технология, позволяющая компьютеру имитировать поведение человека.
Технологии машинного обучения (machine learning) относятся к ИИ. Они предоставляют электронным системам возможность автоматически учиться и совершенствоваться без нужды в изменении кода самого программного обеспечения. Данные технологии направлены на решение задач классификации, кластерного и регрессионного анализа, позволяют провести поиск аномалий в имеющемся массиве данных [1].
В качестве основы для разработки собственных алгоритмов машинного обучения зачастую используются различные готовые модели, которые впоследствии модифицируются исследователями. Так, среди работ встречается использование таких моделей, как DenseNet [10], Dense U-Net [9], DeepMedic [5, 6], ResNexT [19], Inception v4 [11] и InceptionResNetV2 [16].
Программное обеспечение на основе подобных алгоритмов, предназначенное для анализа медицинских изображений, последние годы активно входит в практику врачей-рентгенологов в качестве вспомогательных инструментов [26]. Результаты некоторых исследований указывают на производительность алгоритмов машинного обучения в части определенных задач аналогичную или даже лучшую, чем у врачей-рентгенологов [27].
Обучение алгоритмов производится на размеченных врачами-рентгенологами наборах данных — датасетах. Для создания эффективно работающих алгоритмов компьютерного зрения нужны структурированные и размеченные данные [28]. Для более правдоподобной оценки точности алгоритмов принято использовать построение ROC-кривой с определением AUC [29, 30].
Практическое применение алгоритмов машинного обучения
Для разработки эффективных алгоритмов ИИ требуется корректно составленное техническое задание [31]. Наиболее частым применением алгоритмов ИИ в диагностике ургентных состояний является корректный триаж [26]. Вторая актуальная задача, решаемая алгоритмами ИИ — количественная оценка объема ВЧК и типа кровоизлияния [32]. Третьей задачей, решение которой может помочь клинической практике, является улучшение точности диагностики ВЧК за счет повышения качества изображения КТ [33].
По рассматриваемому направлению диагностики ВЧК существуют научные и коммерческие разработки без данных о широком клиническом внедрении [5—16, 19, 21—22]. Тем не менее государственные стандарты оценки работы таких алгоритмов в медицине были разработаны и приняты в России только в 2021—2022 гг. [34]. Краткая информация по широкодоступным коммерческим алгоритмам представлена в таблице.
Коммерчески доступные алгоритмы машинного обучения для обнаружения и/или сегментации внутричерепных кровоизлияний и их классификации
Название сервиса | Функционал | Клиническая задача |
Aidoc Briefcase ICH (AiDoc, Израиль) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках |
BioMind AI for Haemorrhage (BioMind Technology, Китай) | Триаж, сортировка КТ ГМ, предсказание риска увеличения гематомы в ближайшие 24 ч | Обнаружение признаков ВЧК, их сегментация на снимках |
CINA-ICH (Avicenna.AI, Франция) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках |
CuraRad-ICH (Keya Medical (бывш. CuraCloud Corp.), США) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках |
StrokeViewer (NICO.LAB, Нидерланды) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках, перфузионный анализ, обнаружение места сосудистой окклюзии, оценка коллатералей |
qER (Qure.AI, Индия) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках, обнаружение очагов ишемического инсульта, переломов костей черепа, масс-эффекта |
Viz ICH (Viz.AI, США) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках |
Nanox.AI (Nanox Imagind LTD, Израиль) | Триаж, сортировка КТ ГМ | Обнаружение признаков ВЧК, их сегментация на снимках |
Примечание. КТ ГМ — компьютерная томография головного мозга; ВЧК — внутричерепные кровоизлияния.
Наборы данных для обучения и тестирования алгоритмов
Основа эффективности работы алгоритма — это качество тех баз медицинских данных, на которых он будет обучаться. По данным литературы, можно выделить несколько основных параметров, характеризующих собираемые массивы данных, такие как его величина (количество отдельных изображений и количество серий), толщина среза, соотношение норма/патология, соотношение исследований в выборках для обучения и для тестирования.
В большинстве случаев для обучения используется 80—90% исследований от собранного набора данных, когда как для тестирования — оставшиеся 10—20%. [9, 25, 35]. Качественные наборы данных для обучения содержат несколько тысяч КТ-исследований, выборка же для тестирования/валидации может насчитывать несколько сотен работ [36], например, Qure25K и CQ500 [37]. При этом необходимо отметить, что набор данных CQ500 использовался и для создания других алгоритмов [9, 10, 13]. Также одним из крупнейших наборов данных можно назвать базу исследований RSNA [28].
При этом соотношение работ с нормой и патологией варьируется: 11,82% патологии в наборе данных Qure25K, 16,36% для первой части CQ500, 61,37% для второй части CQ500, 40,81% в обучающем и 35,23% в тестировочном наборах данных RSNA. Как было сказано ранее, это соотношение является важным параметром и основной проблемой, косвенно относящейся к соотношению норма/патология, является overfitting — переобучение [36]. Пример переобучения — это решение задачи об определении наличия патологии по маркеру стороны в углу рентгенограммы органов грудной клетки [38].
Другой причиной ошибок, касающейся именно соотношения, является тенденциозность выборки (spectrum bias), возникающая в случае, когда набор данных был составлен без учета эпидемиологического распределения целевой патологии [39]. Также показатели работы алгоритма могут зависеть даже от того, сколько врачей собирали обучающие наборы данных и имели ли они при этом доступ к дополнительной клинической информации или нет [40].
Материалы литературы показывают, что для создания рабочего алгоритма, направленного на детекцию ВЧК, малая толщина среза не является обязательным условием: во всех работах максимальная используемая толщина среза достигает 5 мм, минимальная — 0,5 мм [35].
Клиническая апробация
Существует несколько исследований, в том числе проспективных, предоставляющих сравнение работы врачей-рентгенологов с работой алгоритма [15, 18, 21], а также описывающих опыт внедрения и непосредственное влияние алгоритма на рабочий процесс врачей-рентгенологов [23, 24].
В статье N. Schmitt и соавт. [15] описывается апробация алгоритма ИИ e-ASPECTS от Brainomix на валидационном наборе данных, при которой результаты алгоритма сравнивались с работой двух врачей-ординаторов нейрорадиологов с опытом 2 года. Для валидационного набора данных экспертом-нейрорадиологом было отобрано 160 пациентов, у 79 из которых имелись признаки острого ВЧК. Чувствительность и специфичность алгоритма составили 91 и 89%, при этом соответствующие метрики оценки работы врачей-ординаторов были у первого — 99 и 98%, а у второго — 100 и 98% соответственно. ROC-AUC разработанного алгоритма составил 0,90, при этом у врачей-ординаторов — 0,98 и 0,99. Таким образом, алгоритм ИИ показал хорошие результаты, однако не смог превзойти врачей.
Еще одной работой, где авторы оценивали метрики и функционирование алгоритма и врачей, является исследование W. Kuo и соавт. [21]. Апробация алгоритма проводилась на тестировочном наборе данных из 200 КТ-серий, при этом происходило сравнение с результатами 4 сертифицированных врачей-нейрорадиологов с опытом работы 4, 10, 15 и 16 лет. Созданный авторами алгоритм PatchFCN достиг порогов чувствительности и специфичности в 100 и 90% соответственно, с показателем ROC-AUC — 0,991±0,006, превзойдя двух (с 4 и 16 годами опыта) из четырех сертифицированных нейрорадиологов.
Также хотелось бы отметить работу N. Buls и соавт. [18], где в клинических условиях проводилась оценка согласованности между тремя врачами-рентгенологами и алгоритмом ИИ: коэффициент Каппа Коэна составил 0,78, что указывает на значительную согласованность. Интересной особенностью данной работы можно назвать данные по количеству обработанных и не обработанных алгоритмом ИИ в эксперименте КТ-серий: суммарно алгоритмом было оценено только 77,6% (388/500) представленных исследований, проведенных на 4 различных моделях томографа.
В двух исследованиях был оценен хронометраж написания диагностических заключений. В работе D. Ginat [23] описывается опыт внедрения в практику одного клинического центра коммерческого алгоримта ИИ AIdoc. Ретроспективно было обработано 8723 КТ-исследования, из них 1829 было помечено алгоритмом как потенциально содержащие признаки ВЧК. Было показано, что общее время подготовки заключений для помеченных алгоритмом ИИ КТ-исследований сокращалось на 34,7% (57,9 мин) для стационарных и 89,6% (603,9 мин) для амбулаторных пациентов. В работе T.J. O’Neill и соавт. [24] описывается пошаговый опыт внедрения коммерческого алгоритма AIdoc в клиническую практику, где наблюдалось значимое снижение затраченного времени в среднем на 12 мин для ВЧК-позитивных и 15,45 мин для ВЧК-негативных случаев.
В настоящее время в Москве проходит крупнейшее в мире проспективное и мультинаправленное исследование в сфере искусственного интеллекта в медицине — Эксперимент по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы [41]. В Эксперимент вошли 153 медицинские организации города Москвы, 1242 единицы диагностического оборудования, и в настоящий момент в нем работают 42 ИИ-сервиса. С мая 2022 г. в Эксперимент включен алгоритм выявления ВЧК. За один год при участии 39 ИИ-сервисов было проанализировано 1 468 872 исследования, в экспертной оценке которых приняли участие 538 врачей (рис. 1) [42].
Рис. 1. Графическое представление данных об Эксперименте по применению компьютерного зрения в лучевой диагностике с официального сайта mosmed.ai. Актуально на 15.11.22.
На рис. 2 представлен пример работы одного из ИИ-сервисов, предназначенного для выявления кровоизлияний на КТ головы, участвующего в Эксперименте.
Рис. 2. Пример работы сервиса искусственного интеллекта.
На компьютерно-томографическом изображении представлен очаг внутримозгового кровоизлияния. Контуры очага отмечаются сервисом с указанием типа кровоизлияния (розовым). Расположение срезов с обнаруженной сервисом патологией выделяются красным на цветовой линии снизу. Пояснения в тексте.
В левом таламусе визуализируется гематома плотностью 66—68 HU, которая была успешно сегментирована сервисом. Помимо сегментации на всех срезах, в функционал ИИ-сервиса входит указание вероятности наличия патологии (в данном случае 0,98 или 98%), определение типа кровоизлияния (внутримозговое), подсчет общего объема (6,39 мл) и указание номеров срезов, на которых определяется патология (137—172). Также детализируются наибольшие размеры каждого найденного патологического объекта (кровоизлияния) в мм (в данном случае 24,9×22,95×22,5). ИИ-сервис в интерфейсе медицинской информационной системы предоставляет ответ в двух формах — текстовом окне DICOM SR и в виде дополнительной серии КТ-изображений с маской, на которой отражается разметка патологических объектов, тип кровоизлияния, цветовая линия с отражением срезов, на которых есть патология (нормальные срезы — зеленые, с патологическим объектом — красные), количество патологических объектов, их продольные размеры и пометка «только в исследовательских целях».
Заключение
Компьютерное зрение является перспективным направлением информационных технологий, способным решать различные клинические задачи, включая автоматизированное обнаружение, классификацию и определение объема внутричерепного кровоизлияния. Сформирован общий подход к созданию наборов данных, обучению алгоритмов и оценки их эффективности, включая работу в реальных клинических условиях. Перед полноценным внедрением алгоритмов диагностики жизнеугрожающих состояний (в частности, внутричерепного кровоизлияния) перспективны поиски возможностей их применения в качестве второго мнения. Актуальны мультицентровые исследования для определения места «интеллектуальных цифровых помощников» в современной практике нейрохирургов и специалистов лучевой диагностики.
Участие авторов:
Концепция и дизайн исследования — Хоружая А.Н., Петряйкин А.В., Кремнева Е.И.
Сбор и обработка материала — Сморчкова А.К., Хоружая А.Н.
Написание текста — Сморчкова А.К., Хоружая А.Н.
Редактирование — Петряйкин А.В., Кремнева Е.И.
Авторы заявляют об отсутствии конфликта интересов.