Введение
Методы лучевой диагностики все более масштабно применяются при массовых профилактических осмотрах (скринингах) с целью выявления онкологических, сердечно-сосудистых, инфекционных и иных заболеваний [1, 2]. При этом система здравоохранения вынуждена затрачивать значительные ресурсы для проведения массовых профилактических осмотров. Одним из таких ключевых ресурсов является врач-специалист, который должен быстро и качественно интерпретировать огромный поток результатов обследований. Усложняет ситуацию нормативное требование по проведению двойных описаний результатов скрининга [3]. Действительно, двойные описания результатов массовых профилактических исследований предусмотрены стандартами и протоколами медицинской помощи в ряде ведущих стран мира. Вследствие этого многие специалисты лучевой диагностики по всему миру считают крайне целесообразным автоматизировать анализ результатов скрининговых обследований [4—6].
В ограниченных ретроспективных исследованиях показана достаточно высокая диагностическая точность алгоритмов на основе технологий искусственного интеллекта (ИИ) для выявления признаков онкологической патологии в процессе скрининговых обследований — маммографии и томосинтеза молочной железы [7]. Автоматизация анализа результатов массовых профилактических обследований потенциально может значительно оптимизировать ресурсы системы здравоохранения.
При автоматизированном анализе результатов скрининговых компьютерных томографий органов грудной клетки отмечена более высокая частота выявления очагов в легких, чем при двойных просмотрах (86,2% по сравнению с 79,2%; p<0,001); при этом точность не зависит от размера очагов [8—9]. Развитие технологий ИИ в области диагностики туберкулеза достигло высоких результатов, некоторые алгоритмы не уступают показателям работы врачей и могут быть использованы для первичного прочтения [10]. Наиболее высокие показатели достигнуты с помощью комбинированного применения различных нейросетей (площадь под ROC-кривой (AUC) до 0,98) [11, 12].
Цель исследования — оценить влияние делегирования полномочий по выполнению первого описания медицинскому программному обеспечению на основе технологий ИИ на длительность процесса двойного описания результатов профилактической флюорографии.
Материал и методы
Исследование выполнено на базе Московского референс-центра лучевой диагностики (ГБУЗ «НПКЦ ДиТ ДЗМ» Москвы, tele-med.ai) в рамках Московского эксперимента по применению технологий компьютерного зрения в лучевой диагностике (mosmed.ai).
Общая схема исследования представлена на рис. 1.
Рис. 1. Общая схема исследования.
Дизайн исследования — когортный.
Пациенты медицинских организаций, оказывающих первичную медико-санитарную помощь, получали направления на профилактическую флюорографию легких в соответствии с правилами и порядками оказания медицинской помощи. Исследования проведены в соответствующих учреждениях. Описания результатов исследований выполнены дистанционно врачами-рентгенологами Московского референс-центра лучевой диагностики на базе ГБУЗ «НПКЦ ДиТ ДЗМ» Москвы.
Реализованы два сценария производственного процесса двойного описания:
Сценарий №1:
— результаты исследования сохраняются в ЕРИС ЕМИАС;
— первое описание — результаты маршрутизируются на ИИ-сервис для машинного анализа, результаты анализа сохраняются в виде дополнительной серии в ЕРИС ЕМИАС (в статусе электронной медицинской записи);
— второе описание — результаты исследования, включая результаты работы ИИ-сервиса, комплексно интерпретируются врачом-рентгенологом, формируется и визируется описание (в статусе электронного медицинского документа).
Сценарий №2:
— результаты исследования сохраняются в ЕРИС ЕМИАС;
— первое описание — результаты исследования интерпретируются врачом-рентгенологом №1, формируется и визируется описание (в статусе электронного медицинского документа);
— результаты исследования становятся доступны врачу-рентгенологу №2;
— второе описание — результаты исследования интерпретируются врачом-рентгенологом №2, формируется и визируется описание (в статусе электронного медицинского документа).
В выборку вошли данные исследований, выполненных в периоды с 01.04.21 по 30.04.21 (сценарий №2) и с 01.11.21 по 30.11.21 (сценарий №1).
Исследование выполнено на принципах аналитического (поэлементного) метода нормирования труда [13]. Определены виды работ в соответствии с действующей номенклатурой: A06.09.006.001 Флюорография легких цифровая.
Способ получения информации для разработки норм времени: сбор информации по данным отчетности в информационной системе в сфере здравоохранения субъекта Российской Федерации. В качестве источника использована база данных Единого радиологического информационного сервиса автоматизированной информационной системы города Москвы «Единая медицинская информационно-аналитическая система города Москвы» (далее — ЕРИС ЕМИАС), содержащая результаты исследований и их описания в объеме более 11 млн записей.
Для хронометража использована арифметическая разница между временем:
— загрузки результатов исследования в ЕРИС ЕМИАС и получения результатов работы ИИ-сервиса (отображением их в виде дополнительной серии в ЕРИС ЕМИАС);
— начала работы врача-рентгенолога над заключением и визирования заключения в ЕРИС ЕМИАС;
— загрузки результатов исследования в ЕРИС ЕМИАС и визирования врачом-рентгенологом заключения в ЕРИС ЕМИАС (сценарий №1 — единственным врачом, сценарий №2 — врачом №2).
Для автоматического анализа флюорографических изображений использовали отечественное программное обеспечение «ЦЕЛЬС (CELSUS)» (номер свидетельства о государственной регистрации программы для ЭВМ RU 2019610585, eLibrary ID: 39308994), разработанное ООО «Медицинские Скрининг Системы» (Калуга, Россия). Программное обеспечение по флюорографическим изображениям определяет наличие или отсутствие патологических образований в легких. Функционал программного обеспечения является системой помощи принятия врачебных решений, позволяющей врачу-рентгенологу проводить «двойное чтение» рентгенологических исследований. При валидации программного обеспечения, проведенной экспертами ГБУЗ «НПКЦ ДиТ ДЗМ» в рамках эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений, получены следующие результаты: площадь под ROC-кривой (AUC) составила 0,93, чувствительность — 0,85, специфичность — 0,89, точность — 0,87. Пример работы программного обеспечения представлен на рис. 2.
Рис. 2. Пример результатов работы ИИ-сервиса.
а — флюорограмма пациента с наличием выраженного правостороннего сколиоза грудного отдела позвоночника; б — флюорограмма пациента с признаками линейного фиброза слева и суммационным эффектом справа.
Обработка данных хронометража выполнена с использованием методов описательной статистики с указанием следующих характеристик: число непропущенных значений (N), арифметическое среднее (Mean), стандартное отклонение (SD), 95% доверительный интервал (ДИ) для среднего, минимум (Min), максимум (Max), медиана (Med), первый и третий квартили (Q1, Q3). Межгрупповое сравнение выполнено с помощью t-теста на двустороннем уровне статистической значимости 0,05.
Права пациентов обеспечивались комплексом мер внутреннего контроля безопасности и качества медицинской деятельности, включая обязательный аудиторский просмотр результатов лучевых исследований уполномоченными врачами-экспертами.
Результаты
По сценарию №1 проведено двойное описание 1435 результатов профилактических флюорографий, по сценарию №2 — 12 446 (табл. 1, 2).
Таблица 1. Описательная статистика данных сценария №1 (врач + искусственный интеллект)
Параметр | Длительность подготовки заключения ИИ-сервисом, мин | Длительность подготовки заключения врачом, мин | Готовность заключения, подготовленного врачом, мин | Длительность проведения двойного описания, мин |
N | 1435 | 1435 | 1435 | 1435 |
Mean | 11,2 | 0,9 | 199,0 | 199,3 |
SD | 14,7 | 3,0 | 330,5 | 330,3 |
95% ДИ | (10,5; 12,0) | (0,8; 1,1) | (181,9; 216,1) | (182,2; 216,4) |
Min | 0,3 | 0,0 | 0,4 | 0,7 |
Max | 99,6 | 58,7 | 1241,2 | 1241,2 |
Med | 5,3 | 0,4 | 68,0 | 68,5 |
Q1 | 1,9 | 0,3 | 23,4 | 23,8 |
Q3 | 14,6 | 0,7 | 160,1 | 160,1 |
Таблица 2. Описательная статистика данных сценария №2 (врач + врач)
Параметр | Длительность подготовки заключения врачом №1, мин | Готовность заключения, подготовленного врачом №1, мин | Длительность подготовки заключения врачом №2, мин | Промежуток времени между визированием 1-го протокола и началом подготовки 2-го протокола, мин | Длительность проведения двойного описания, мин |
N | 12446 | 12446 | 12446 | 12446 | 12446 |
Mean | 0,8 | 181,8 | 0,4 | 1656,3 | 1838,5 |
SD | 2,1 | 341,2 | 1,0 | 3532,8 | 3671,4 |
95% ДИ | (0,7; 0,8) | (175,8; 187,8) | (0,4; 0,4) | (1594,2; 1718,4) | (1774,0; 1903,0) |
Min | 0,0 | 0,0 | 0,0 | 0,0 | 0,7 |
Max | 57,4 | 4092,2 | 38,8 | 39165,1 | 39196,2 |
Med | 0,3 | 34,3 | 0,2 | 151,3 | 293,7 |
Q1 | 0,2 | 6,3 | 0,1 | 15,0 | 44,9 |
Q3 | 0,7 | 184,4 | 0,5 | 1390,1 | 1589,1 |
Автоматизированный анализ данных занимал от 0,3 до 99,6 мин, в среднем — 11,2±14,7 мин (95% ДИ 10,5; 12,0). Причем большая часть этого времени затрачивалась на пересылку массива данных, а не на собственно работу алгоритмов. В сценарии №1 врач, получив данные машинного анализа, затрачивал на подготовку заключения в среднем 0,9±3,0 мин (95% ДИ 0,8; 1,1).
При реализации сценария №2 продолжительность работы врача, осуществлявшего первый просмотр, составила 0,8±2,1 мин (95% ДИ 0,7; 0,8); второй просмотр — 0,4±1,0 мин (95% ДИ 0,4; 0,4). Обращает на себя внимание длительность промежутка между визированием протокола первым врачом и началом работы второго врача — в среднем она составляет 1656,3—3532,8 мин (95% ДИ 1594,2; 1718,4). Следует особо подчеркнуть, что такая задержка возникает в условиях работы референс-центра лучевой диагностики, где не существует проблемы кадрового дефицита и производительность труда врачей-рентгенологов максимальна, а также исключены возможности «приписок», искусственно сокращающих длительность описаний результатов профилактических исследований.
Если ориентироваться на значения медианы, то длительность работы врачей по обоим сценариям не превышала одной минуты, а ключевая временная задержка (в сценарии №2) сопряжена с «передачей» результатов исследования от первого врача ко второму. Даже в условиях интенсификации и управляемости производственных процессов в условиях референс-центра выявленная временная задержка явно носила критичный характер. Вместе с тем длительность подготовки заключения по сценарию №1 и сценарию №2 статистически значимо различалась (табл. 3). В формате «врач + ИИ» на подготовку описания затрачивалось на 0,16±0,06 (p=0,0079) и на 0,53±0,04 (p<0,0001) мин больше, чем в формате «врач + врач». Врач-рентгенолог, работавший с результатами ИИ-сервисов, более тщательно анализировал исследование, верифицируя решения алгоритмов. Такой подход повышает точность работы, способствует устранению предубеждений и ситуаций с высоким риском дефектов.
Таблица 3. Результаты сравнения длительности подготовки заключения врачами-рентгенологами
Группа | Mean, мин | SD, мин | 95% ДИ, мин |
Врач из сценария №1 | 0,94 | 0,08 | 0,78; 1,09 |
Врач №1 из сценария №2 | 0,77 | 0,02 | 0,74; 0,81 |
Разница | 0,16 | 0,06 | 0,04; 0,28 |
t (p-value) | 2,66 (0,0079) | ||
Врач №2 из сценария №2 | 0,41 | 0,01 | 0,39; 0,43 |
Разница | 0,53 | 0,04 | 0,45; 0,60 |
t (p-value) | 14,0 (<0,0001) |
Вместе с тем выявленное увеличение не сказалось на общей длительности процесса. Проведен сравнительный анализ совокупных временных затрат на двойные описания результатов профилактической флюорографии (табл. 4). Общая длительность проведения двойного описания в формате «врач + ИИ» колебалась от 0,7 до 1241,2 мин, составив в среднем 199,3±330,3 мин (95% ДИ 182,2; 216,4). По сценарию №2 общая длительность проведения двойного описания составила 1838,5±3671,4 мин (95% ДИ 1774,0; 1903,0). Различия носили статистически значимый характер (t-критерий — –16,9, p<0,0001).
Таблица 4. Сравнение длительности двойного описания результатов профилактической флюорографии
Сценарий | Mean, мин | SD, мин | 95% ДИ, мин |
Сценарий №1 (врач + ИИ) | 199,3 | 8,7 | 182,2; 216,4 |
Сценарий №2 (врач + врач) | 1838,5 | 32,9 | 1774,0; 1903,0 |
Разница | –1639,2 | 97,0 | –1829,3; –1449,1 |
t (p-value) | –16,9 (<0,0001) |
Обсуждение
Результаты исследования демонстрируют большое значение автоматизации для лучевой диагностики. Делегирование первого описания результатов массовых профилактических осмотров медицинскому программному обеспечению на основе технологий ИИ позволяет кардинально (фактически в 10 раз) сократить сроки предоставления заключения обследованным лицам и медицинским работникам, направляющим пациентов на обследование. Автоматизация может улучшить производительность работы подразделений лучевой диагностики первичного звена здравоохранения.
С нормативной точки зрения, первое описание, выполняемое ИИ-сервисом, может быть помещено в медицинскую документацию пациента в виде электронной медицинской записи (сведений и информации о состоянии здоровья пациента). Причем в соответствии с приказом Минздрава России от 07.09.20 №947н «Об утверждении Порядка организации системы документооборота в сфере охраны здоровья в части ведения медицинской документации в форме электронных документов» [14] медицинские записи, полученные в автоматическом режиме в результате применения медицинских изделий, допущенных к обращению, не требуют подписания электронной подписью медицинского работника. Второе описание выполняется врачом и помещается в медицинской документации уже в виде электронного медицинского документа, подписываемого с использованием усиленной квалифицированной электронной подписи.
С учетом изложенного актуальнейшим вопросом становится точность работы соответствующих технологий ИИ, а обязательность их регистрации в качестве медицинского изделия не подлежит дальнейшему обсуждению.
Итак, диагностическая точность алгоритмов ИИ — критично значимый фактор для успешной автоматизации двойных описаний. В научной периодике этот вопрос изучен хорошо. Достаточно убедительно показано положительное влияние алгоритмов ИИ на точность работы врача-рентгенолога. Благодаря использованию систем поддержки принятия решений при выявлении очагов в легких на рентгенограммах чувствительность диагностических решений врача статистически значимо повышается (с 65,1 до 70,3%), снижается число ложноположительных находок [15]. Точность выявления очагов в легких может превышать 91,0%. Достигнутые уровни метрик точности позволили авторам исследования сделать вывод о применимости алгоритмов ИИ для сортировки и оптимизации двойных просмотров результатов скрининговых исследований [16]. Однако кроме предположений «о возможности» авторы не предприняли конкретных шагов. На материалах Китайской программы скрининга рака легкого методом низкодозовой компьютерной томографии убедительно доказана принципиальная достижимость требуемого уровня точности алгоритмов ИИ. Более того, при выявлении очагов Lung-RADS 3 и 4 точность автоматизированного анализа и двойного описания идентичны, а при обнаружении очагов Lung-RADS 2 алгоритмы ИИ превосходят врачей [17]. Таким образом, требуемый уровень диагностической точности достижим. Однако открытым вопросом остается эффективность автоматизации.
Потенциально автоматизация в лучевой диагностике может влиять на длительность описаний. В эксперименте показано положительное влияние автоматизированной сортировки результатов рентгенографии органов грудной клетки на время подготовки заключения. Алгоритм ИИ для выявления признаков пневмоторакса интегрирован в медицинскую информационную систему и использован для приоритизации исследований в рабочем списке врача-рентгенолога. Это позволило снизить время получения лечащим врачом заключения с 80,1 мин до 35,6 мин (p<0,0001) [18]. Результат, безусловно, интересен и важен, хотя и достигнут лишь в условиях моделирования клинического процесса.
В контексте скринингов влияние автоматизации на производительность наиболее полно изучено для профилактических лучевых исследований молочной железы.
Для оптимизации двойных описаний скрининговой маммографии предложен подход, состоящий в применении технологий ИИ для сортировки результатов исследований. Согласно авторской концепции, алгоритм ИИ должен иметь диагностическую точность, равную врачебной. Результаты исследований с нормальной лучевой картиной автоматически «отсеиваются» и сохраняются в архиве, а результаты с патологическими признаками направляют на описание врачу-рентгенологу. Тем самым обеспечивается снижение нагрузки на медицинский персонал [19]. Несмотря на привлекательность такого подхода, дискуссионным является полное исключение врача из описаний подавляющего большинства исследований. Фактически, осуществляется делегирование принятия врачебного решений некоему алгоритму ИИ. Причем такое решение может быть верифицировано человеком только ретроспективно, в процессе мероприятий по контролю качества лучевых исследований [20]. Подобный подход создает риск, он возможен только при выполнении максимально высоких требований к диагностической точности алгоритмов ИИ.
Более реалистичным представляется вариант замены одного из врачей: первое описание происходит автоматически, второе — проводится специалистом. Именно такой сценарий, включающий делегирование первого описания ИИ-сервису, нами реализован в проспективном дизайне для скрининга заболеваний органов грудной клетки методом флюорографии. Если вернуться к источникам литературы, то в мультицентровом исследовании смоделирован процесс двойных описаний результатов скрининговой маммографии. Выявлено преобладание диагностической точности алгоритма ИИ над диагностической точностью, достигаемой врачами-рентгенологами (площадь под характеристической кривой на 11,5% больше). Но главное — показано снижение нагрузки на 88,0%. Таким образом, автоматизация двойных описаний маммографии статистически значимо повысила производительность скрининга, оптимизировав загруженность врачей [21]. Явным ограничением исследования стал его экспериментальный дизайн. Не ясна возможность экстраполяции результатов на условия клинической практики. На этом фоне наше исследование проведено в действующей медицинской организации путем трансформации реальных производственных процессов.
Благодаря автоматизации длительность описаний скрининговых лучевых исследований молочной железы статистически значимо снижается на 13,0% [22].
С точки зрения качества диагностики преимущества двойных описаний результатов скрининга в формате «врач + ИИ» показаны достаточно убедительно — метрики точности по меньшей мере не ниже, чем при работе в формате «врач №1 + врач №2», например, для автоматизированного анализа результатов томосинтеза молочной железы в целях скрининга злокачественных новообразований. При этом врач работает не только точно, но и более быстро: длительность описаний статистически значимо снижается [22—24]. Для рентгенографии органов грудной клетки подобные результаты пока что не зафиксированы, возможно, наше исследование имеет определенный приоритет.
В систематическом обзоре показана тенденция снижения длительности описаний результатов лучевых исследований органов грудной клетки при использовании врачом-рентгенологом алгоритмов ИИ. Вместе с тем авторы обзора отмечают, что такое снижение не всегда статистически значимое и не всегда коррелирует с сохранением должного уровня диагностической точности. Более того, при автоматизированном анализе результатов рентгенографии может наблюдаться парадоксальная картина: длительность описания при оказании экстренной и неотложной помощи сокращается, а при плановой, наоборот, возрастает [25]. Примечательно, что похожий парадокс мы ранее наблюдали в условиях Московского эксперимента по компьютерному зрению в лучевой диагностике. Для некоторых исследований, предварительно проанализированных ИИ-сервисами, длительность описания сокращалась (профилактическая маммография, компьютерная томография при COVID-19), а для иных — возрастала (компьютерная томография для обнаружения рака легкого) [26].
В представленном исследовании нами зафиксировано увеличение длительности работы врача-рентгенолога при автоматизации первого просмотра результатов профилактической флюорографии. Результаты машинного анализа использовались врачами для более скрупулезной интерпретации диагностического изображения. Вместе с тем выявленное увеличение не влияло на клиническую составляющую и общую производительность. При анализе всего производственного процесса установлено, что автоматизация позволила статистически значимо сократить его длительность.
На материале почти 14 000 флюорографических исследований показано, что автоматизация путем делегирования полномочий по выполнению первого описания медицинскому программному обеспечению на основе технологий ИИ статистически значимо сокращает длительность процесса двойного описания результатов профилактической флюорографии.
Из этого следует, что внедрение технологий ИИ для анализа и описания результатов массовых профилактических осмотров:
1) статистически значимо повышает производительность труда;
2) принципиально ускоряет предоставление результатов скрининга, повышая их доступность для обследованных лиц и медицинских работников, направляющих пациентов на обследование;
3) способствует ускорению начала оказания медицинской помощи при необходимости;
4) вносит вклад в сокращение временных затрат граждан на профилактические осмотры и диспансеризацию.
Заключение
Применение медицинского программного обеспечения на основе технологий искусственного интеллекта при двойном описании профилактических флюорограмм снижает длительность процесса двойного описания с 1 838,5±32,9 до 199,3±8,7 мин.
Ограничения
В данном исследовании не проводилась оценка точности работы программного обеспечения на основе технологий ИИ для анализа флюорограмм. Подразумевалось, что для трансформации производственных процессов может использоваться любое релевантное решение — программное обеспечение, имеющее статус медицинского изделия.
Данная публикация подготовлена авторским коллективом в рамках научно-исследовательской работы (№ЕГИСУ: АААА-А21-121012290080-8) в соответствии с Программой Департамента здравоохранения Москвы «Научное обеспечение столичного здравоохранения» на 2020—2022 гг.
Благодарность. Коллектив авторов выражает благодарность за помощь в подготовке научного исследования врачам-рентгенологам Московского референс-центра Евгению Вячеславовичу Панкратову и Татьяне Владимировне Прохоровой.
Участие авторов: концепция и дизайн исследования — С.П. Морозов, А.В. Владзимирский, Н.В. Ледихова; сбор и обработка материала — Н.Д. Кудрявцев, Д.Д. Кожихина, И.М. Шулькин, И.В. Гончарова, О.М. Внукова А.В. Владзимирский, А.В. Новиков; статистический анализ данных — В.Г. Кляшторный; написание текста — А.В. Владзимирский, Н.Д. Кудрявцев; редактирование — С.П. Морозов.
Авторы заявляют об отсутствии конфликта интересов.