Efficacy and safety of artificial intelligence-based large language models for decision making support in herniology: evaluation by experts and general surgeons

Nechay T.V.; Sazhin A.V.; Loban K.M.; Bogomolova A.K.; Suglob V.V.; Beniia T.R.

doi:https://doi.org/10.17116/hirurgia20240816

Закрыть метаданные

Рекомендуем статьи по данной теме:

Искусственный интеллект в хирургии. Снижение рисков, связанных с полифармакотерапией, в периоперационном периоде. Хирургия. Журнал им. Н.И. Пирогова. 2025;(7):59-66

Нерешенные вопросы повторяющейся неудачи имплантации. Проблемы репродукции. 2025;(3):42-47

Резолюция расширенного заседания Президиума и комитетов Российского межрегионального общества по изучению боли (РОИБ) «Роль центральных миорелаксантов в лечении неспецифической боли в нижней части спины». Российский журнал боли. 2025;(2):91-91

Анатомо-клинические обоснования эндовидеохирургической внебрюшинной герниопластики по методике TEP. Оперативная хирургия и клиническая анатомия (Пироговский научный журнал). 2025;(2-2):87-94

Искусственный интеллект в комплексной реабилитации инвалидов. (Обзор литературы). Вопросы курортологии, физиотерапии и лечебной физической культуры. 2025;(3):54-61

Герниопластика паховой грыжи: стандартизированная лапароскопическая трансабдоминальная предбрюшинная пластика. Методология формирования интраоперационных алгоритмов. Эндоскопическая хирургия. 2025;(4):13-18

Применение системы поддержки принятия врачебных решений Webiomed.DHRA при проведении диспансеризации в Российской Федерации: экономический анализ. Медицинские технологии. Оценка и выбор. 2025;(3):61-73

Искусственный интеллект в репродуктивной медицине и хирургии. Проблемы репродукции. 2025;(4):10-25

Возможности искусственного интеллекта при выборе тактики хирургического лечения при тетраде Фалло. Кардиология и сердечно-сосудистая хирургия. 2025;(5):560-565

Внебольничная пневмония у взрослых. Клинические рекомендации 2024 (краткая версия). Респираторная медицина. 2025;(3):6-18

Резюме / Abstract:

ЦЕЛЬ ИССЛЕДОВАНИЯ

Оценить качество рекомендаций языковой модели (ЯМ) ChatGPT по лечению паховой грыжи.

МАТЕРИАЛ И МЕТОДЫ

ChatGPT было задано 5 вопросов о хирургическом лечении паховых грыж. Чат-боту отведена роль эксперта в области герниологии и предложено провести поиск только в специализированных медицинских базах данных, предоставив информацию об источниках и уровне их доказательности. Эксперты в области герниологии и общие хирурги (не эксперты) оценили качество рекомендаций, полученных с помощью ChatGPT, по 4-балльной шкале (от 0 до 3 баллов). Изучены статистические закономерности между оценками респондентов и их мнением относительно перспектив использования искусственного интеллекта.

РЕЗУЛЬТАТЫ

Качество ответов ChatGPT экспертами оценено ниже (2 [1—2] балла), чем не экспертами (2 [2—3]), (p<0,001). Чат-бот не справился с предоставлением достоверных ссылок на источники и указанием уровня доказательности, а также сфальсифицировал половину приведенных ссылок. Респонденты с оптимизмом смотрят на будущее нейросетей как инструмента принятия клинических решений; большинство из них выступают против ограничения их использования в здравоохранении.

ЗАКЛЮЧЕНИЕ

Основываясь на результатах данного исследования, в настоящее время нельзя рекомендовать применение неспециализированных ЯМ в качестве единственного или основного источника информации для принятия решения или виртуального помощника по поиску медицинской информации.

Ключевые слова / Keywords:

инструмент поддержки принятия клинических решений

большая языковая модель

ChatGPT

клинические рекомендации

уровень доказательности

паховая грыжа

искусственный интеллект

Авторы / Authors:

Тарас Вячеславович Нечай

ФГАОУ ВО «Российский национальный исследовательский медицинский университет им. Н.И. Пирогова» Минздрава России

SPIN РИНЦ: 5749-8470
Scopus AuthorID: 57203221629
ORCID: 0000-0003-0769-5282

Александр Вячеславовичсажин

SPIN РИНЦ: 7064-6369
Scopus AuthorID: 6701753208
ORCID: 0000-0001-6188-6093

Лобан К.М.

ORCID: 0000-0002-8333-2398

Богомолова А.К.

ORCID: 0000-0002-7726-1351

Суглоб В.В.

ORCID: 0000-0003-4363-257X

Бения Т.Р.

ORCID: 0009-0007-8636-6415

Дата поступления:

10.05.2024

Дата принятия в печать:

28.05.2024

Закрыть метаданные

Введение

Кибернетическая модель мозга человека «Перцептрон» — прообраз современной нейросети — была разработана и построена Френком Розенблаттом в 1958 г. В последнее 10-летие, благодаря экспоненциальному росту вычислительных мощностей, развитие нейросетей в целом и больших языковых моделей (ЯМ) на основе искусственного интеллекта (ИИ) в частности испытывает бурный рост, который сопровождается возрастающим интересом научной общественности [1]. Релиз ЯМ ChatGPT (Generative Pre-trained Transformer — генеративный предварительно обученный трансформер), созданной при помощи суперкомпьютера Azure, состоялся 30 ноября 2022 г. В течение 5 дней после релиза число пользователей нейросети превысило 1 млн, а за следующие 2 мес — 100 млн [2].

Основное предназначение ЯМ — распознавание текста, ответы на вопросы и поддержание беседы, т.е. генерация ответного, связного по контексту текста на основании конкретного запроса. В то время как первые поколения были встречены профессиональным научным медицинским сообществом без значительного энтузиазма, последующие стали альтернативой ручному поиску информации в нескольких областях профессиональных знаний [3]. Вскоре были разработаны более 10 специализированных на биомедицинских текстах ЯМ, например, BioMedLM, которая «обучалась» на 16 млн абстрактов и 5 млн полнотекстовых статьей из PubMed.

В качестве инструмента оценки производительности биомедицинских ЯМ используют экзамен United States Medical Licensing Examination (USMLE). Последние генерации специализированных ЯМ демонстрируют превосходные результаты в поиске верных тактико-диагностических решений в медицинских задачах, так, ЯМ Med-PALM 2 «набрала» 86,5% в марте 2023 г., превзойдя средний балл, показываемый студентами [4].

«Успехи» ИИ и больших ЯМ и сопутствующая им «медийность» сопровождается поляризацией взглядов специалистов: от революции в медицине и безусловной пользы в сфере принятия врачебных решений до скепсиса относительно ее перспектив и недоверия к технологии.

В настоящее время значительная часть специалистов уже прибегает к использованию неспециализированных больших ЯМ в своей повседневной профессиональной практике [5—9]. Каждый десятый врач использует ChatGPT (в основном неофициально) при постановке диагноза или выборе подходящего лекарства. До 50% работников здравоохранения планируют делать это в ближайшем будущем [10]. В то же время качество ответов и рекомендаций больших ЯМ в области хирургии, а, соответственно, и безопасность, как системы поддержки врача изучена недостаточно [6, 9, 11]. Отношение к ИИ практикующих специалистов в зависимости от мотивации принятия решений неизвестно. Все это на фоне роста использования ИИ off-label вызывает озабоченность профессионального медицинского сообщества и получателей медицинской помощи [11—13].

Цель исследования — оценить качество рекомендаций, предложенных ЯМ ChatGPT относительно тактики лечения паховых грыж, при помощи экспертов-герниологов и хирургов общего профиля.

Материал и методы

Исследование возможностей большой ЯМ в поддержке врачебных решений и готовности медицинского сообщества к опоре на рекомендации ИИ проведено в несколько этапов.

1. Получение рекомендаций ЯМ по ключевым вопросам

При помощи ЯМ ChatGPT 3.5 (OpenAI, США) получены ответы на 5 стандартных вопросов касательно паховой герниопластики:

1. Кому показана плановая паховая герниопластика?

2. Какой минимальный размер имплантата необходим для паховой герниопластики?

3. Какая операция является наиболее оптимальной при паховой грыже: TAPP, TEP, Лихтенштейна? В каких случаях предпочтителен каждый метод? Без описания техники операции.

4. В каких случаях необходима и когда не требуется фиксация сетки при паховой герниопластике?

5. Какова тактика оперативного лечения рецидивных паховых грыж?

ЯМ была проинструктирована выполнять «роль» эксперта в области хирургии и герниологии, профессионала в здравоохранении, предназначенного для поддержки врачебных решений. Было предписано давать краткие и точные ответы, используя доказательства только из достоверных источников, таких как PubMed, NCBI, SCOPUS, Web of Science и т.п. Предложено каждое утверждение сопровождать перечнем использованных источников с указанием уровня доказательности (УД).

Условия и первый вопрос был сформулирован экспертом в области герниологии. Второй и последующий — начинающим хирургом, специализирующимся в герниологии, без участия эксперта в качестве супервайзера.

2. Формирование и оценка фокус-группы

На втором этапе была сформирована фокус-группа для оценки качества рекомендаций ChatGPT. В нее вошли две группы респондентов — эксперты, проводящие обучающие теоретические и практические курсы по герниологии и имеющие опыт не менее 100 паховых герниопластик, и не эксперты — практикующие общие хирурги, вышедшие на плато обучения, но не достигшие опыта 100 операций и не являющиеся преподавателями специализированных курсов. Для минимизации риска систематической ошибки и Хоторнского эффекта авторы работы не принимали участия в анкетировании.

Предваряя оценку качества ответов ChatGPT фокус-группой, респондентам были заданы утоняющие вопросы относительно их источника принятия решений в клинической практике: собственный опыт/распоряжение руководства/отечественные регламентирующие документы/международные регламентирующие документы (гайдлайны)/отечественные и международные регламентирующие документы.

Перед оценкой ответов нейросети респонденты также выражали свое мнение о перспективах применения ИИ в качестве инструмента поддержки принятия врачебных решений по 10-балльной шкале (где 0 — отсутствие перспектив, 10 — важная роль в перспективе). Затем респонденты высказались о необходимости ограничений при внедрении ИИ в медицине (где 0 — нет необходимости, 10 — потребность в жестких ограничениях).

3. Оценка рекомендаций ЯМ фокус-группой

На третьем этапе качество рекомендаций, полученных от ChatGPT, респондентам было предложено оценить в баллах от 0 до 3:

— 3 балла — ответ полный, правильный;

— 2 балла — ответ правильный, но неполный;

— 1 балл — несколько правильных и несколько неправильных ответов;

— 0 баллов — полностью неправильный ответ.

Статистический анализ

Все количественные переменные имели распределение, отличное от нормального. Результаты описательной статистики представлены в виде медианы и межквартильного размаха. Для наглядности также приведены средние значения. Для сравнения числовых переменных в двух группах использовался тест Манна—Уитни. Для выявления корреляций использовался коэффициент ранговой корреляции Спирмена. Результаты принимались как статистически значимые при p-value <0,05. Расчеты проводились с использованием Microsoft Excel и Statistica 7.0 (StatSoft Inc., США).

4. Экспертиза качества ответов ЯМ

На следующем этапе два автора независимо друг от друга проверили УД представленных чат-ботом утверждений, используя руководство по определению УД для клинических исследований [14].

В заключение итоговая статья была целиком загружена в нейросеть. Был задан вопрос об отношении ИИ к полученным результатам: «Чат, что ты можешь сказать о полученных результатах? Можно ли использовать тебя для принятия врачебных решений?»

Результаты

Оценка фокус-группы

В исследовании приняли участие 30 респондентов — 14 экспертов и 16 практикующих хирургов. Подавляющее большинство респондентов (73,3%) сообщили, что их клинические решения в основном опираются на клинические рекомендации — как отечественные, так и международные. 6,7% респондентов сообщили, что в большей степени руководствуются личным опытом, 6,7% — только отечественными рекомендациями, 13,3% — только международными рекомендациями. Никто из опрошенных не полагался на указания руководства. Группы экспертов и не экспертов статистически не отличались в источниках принятия врачебных решений.

В отношении респондентов к перспективам и безопасности применения ИИ в медицине опрос показал высокую степень согласия с утверждением о важной роли ИИ в будущем (медиана — 7 баллов) и низкую степень согласия с утверждением о необходимости законодательного регулирования использования ИИ в медицине (медиана — 3 балла). Статистически значимой разницы между мнением экспертов и практикующих хирургов по этим вопросам выявлено не было.

Оценка ответов нейросети респондентами фокус-группы

Нейросеть предоставила развернутые ответы на вопросы. В формулировке ответа содержалось убеждение в соблюдении условий, поставленных в вопросе. «Based on available evidence from trusted sources,» — это утверждение предваряло ответ на первый вопрос. В соответствии с запросом, ЯМ сопроводила каждый ответ источником информации и УД.

В ответе на все вопросы ЯМ приводила обстоятельные предупреждения относительно важности опоры на известную медицинскую литературу, собственный опыт, особенности пациента и клиническую ситуацию в принятии окончательного решения квалифицированным специалистом в здравоохранении. Вероятно, это запрограммированное стандартное предостережение для запросов медицинской информации.

Респонденты оценивали ответы, полученные с помощью большой ЯМ, в соответствии с клиническими рекомендациям и собственным опытом. Между группами наблюдалась значительная разница в баллах, присвоенных ответам на вопросы 4 и 5 (оценка в группе экспертов была ниже, p<0,05) и в среднем балле за все вопросы (группа экспертов дала большой ЯМ значительно меньше баллов по сравнению с не экспертами, p<0,001) (см. рисунок).

Оценка ответов ChatGPT респондентами.

Чтобы исключить эффект Ирвина в предвзятости оценки, мы искали корреляцию между выраженным респондентами уровнем оптимизма/настороженности в отношении будущей роли ИИ в здравоохранении и ее оценкой. Корреляций выявлено не было (p<0,05). Установлена статистически значимая обратная умеренная корреляция между мнением о важной будущей роли ИИ в принятии медицинских решений и поддержкой законодательного регулирования использования ИИ в здравоохранении (R= –0,52, p=0,002).

Экспертиза качества ответов нейросети

Источники информации, использованные ChatGPT для предоставления ответов, не соответствовали заданным параметрам. На вопросы 1—4 ЯМ предоставила по 3 источника, на 5-й вопрос — 4. Всего чат привел 17 ссылок на 8 источников, среди которых: рекомендации Европейского герниологического общества (European Hernia Society — EHS) по паховым грыжам 2009 г. (3 раза), рекомендации Международного эндогерниологического общества (International Endohernia Society — IEHS) (Часть 1 — 2 раза, часть 3 — 3 раза, приведены под двумя разными первыми авторами), 1 рандомизированное клиническое исследование (РКИ) — в двух вопросах и 1 обсервационное исследование — в двух вопросах. Нейросеть сфальсифицировала 4 источника информации, представив несуществующие в реальности статьи. Последние составляют 50% всех использованных источников и 66,7% всех статей. Интересно, что выдуманным источникам нейросеть поставила УД выше, чем реально существующим клиническим рекомендациям. В случае фальсификации источника ЯМ пользовалась фамилией существующего автора, имеющего многочисленные публикации в области герниологии и «придумывала» остальную легенду — название статьи, журнал и год.

УД, определенный нейросетью для клинических рекомендаций, оказался ниже реального. Для обсервационных исследований (Köckerling F) УД был завышен нейросетью. Сводная информация об источниках литературы, использованных ЯМ, представлена в таблице.

Анализ источников литературы, использованных нейросетью

Публикация	Дизайн исследования	Вопрос (№), где процитирован источник	УД по данным нейросети	Реальный УД соответствующих рекомендаций источника
M.P. Simons и соавт. «European Hernia Society Guidelines on the Treatment of Inguinal Hernia in Adult Patients» Hernia, 2009*	Клинические рекомендации	2	5	4
		3	5	1
		5	5	1A, 1B, 4
R. Bittner и соавт. «Guidelines for Laparoscopic Treatment of Ventral and Incisional Abdominal Wall Hernias (International Endohernia Society (IEHS) —Part 1—3» Surgical Endoscopy, 2014	Клинические рекомендации	2	5	Н/п
		3	5
		4	5
		5	5
R.J. Fitzgibbons и соавт. «Watchful Waiting vs Repair of Inguinal Hernia in Minimally Symptomatic Men: A Randomized Clinical Trial» JAMA, 2006	РКИ	1	1В	1***
	РКИ	4	1В	Н/п
F. Köckerling и соавт. «TAPP for Recurrent Inguinal Hernia» Surgical Endoscopy, 2017**	Обсервационное исследование	3	2В	2A
	Обсервационное исследование	5	2В	2A****
F. Köckerling и соавт. «What is the Evidence for Recommendations to Follow Up Asymptomatic Groin Hernia? Hernia» PubMed, 2019	Фальсифицированный источник	1	2В	Н/п
M.P. Simons и соавт. «The Indirect Hernia—A Controversial Hernia Entity. International Journal of Surgery» PubMed, 2018	Фальсифицированный источник	1	2В	Н/п
M.M. Poelman и соавт. «Systematic Review and Meta-Analysis of Randomized Controlled Trials Comparing Primary versus Mesh Closure of the Acute Incisional Hernia» The British Journal of Surgery, 2013	Фальсифицированный источник	4	1А	Н/п
M.C. Misra и соавт. «Recurrent Inguinal Hernia: Challenges and Solutions» Journal of Minimal Access Surgery, 2006	Фальсифицированный источник	5	4	Н/п

Примечание. * — здесь и далее ссылки приведены в форме их представления нейросетью; ** — неправильно дана ссылка, вероятно, имелась в виду статья F. Köckerling под названием «TEP or TAPP for recurrent inguinal hernia repair-register-based comparison of the outcome»; *** — приведены скорее опровержения рекомендации, предложенной нейросетью; **** — в рамках выбора метода герниопластики нейросеть не рассматривала выбор метода пластики рецидивных паховых грыж. Н/п — не применимо.

Анализ ответов ЯМ

Вопрос 1. Кому показана плановая паховая герниопластика?

В вопросе 1 — «показания к плановой герниопластике» — только одна статья из трех, на которые сослалась ЯМ, существует в реальности [R.J. Fitzgibbons и соавт. «Watchful Waiting vs Repair of Inguinal Hernia in Minimally Symptomatic Men: A Randomized Clinical Trial» JAMA, 2006. (Level of evidence: 1B)]. Другие две статьи: «What is the Evidence for Recommendations to Follow Up Asymptomatic Groin Hernia?» в журнале Hernia и «The Indirect Hernia — A Controversial Hernia Entity» в International Journal of Surgery «выдуманы», хотя их авторы (F. Köckerling, M.P. Simons) существуют в реальности, являются экспертами и обладают большим количеством публикаций в герниологии.

К показаниям к плановой герниопластике ЯМ относит:

— симптоматическая паховая грыжа, причиняющая значительный дискомфорт и нарушающая повседневную физическую активность;

— бессимптомная грыжа у молодых пациентов;

— невправимая грыжа;

— ущемленная грыжа.

Последние два показания очевидно не относятся к плановым. По этой причине, видимо, эксперты выбирали вариант «несколько верных, несколько неверных утверждений». При этом не эксперты в большинстве случаев ставили максимальный балл (см. рисунок), с чем сложно согласиться. Интересно, что единственный реальный источник, приведенный в 1-м вопросе, не позволяет сделать представленных в нем выводов. Очевидно, нейросеть использовала другие источники для описания ответов, однако не привела ссылки на них, «предпочтя» фальсификацию.

Вопрос 2. Минимальный размер сетчатого имплантата для паховой герниопластики.

ЯМ предоставляет рекомендацию установки сетчатого имплантата 10×15 см для эндоскопической и открытой герниопластики «в соответствии с рекомендациями EHS». Однако в источнике литературы, выбранном для подтверждения утверждения [15], не содержится информации относительно размера сетки для паховой герниопластики, т.к. эти гайдлайны посвящены лапароскопическому лечению вентральных и послеоперационных грыж.

В единственной релевантной статье M.P. Simons и соавт. [16] для эндоскопических операций при паховых грыжах действительно рекомендуется выбор сетки 10×15 см, для открытой операции — 7×14 см. Во всех случаях ChatGPT исказил УД, установив его минимально возможным.

Вопрос 3. Какая операция является наиболее оптимальной при паховой грыже: TAPP, TEP, Лихтенштейна? В каких случаях предпочтителен каждый метод?

В этом вопросе оба вида операций названы сравнимыми в плане эффективности и безопасности. По «утверждению» нейросети операция Лихтенштейна «подходит большинству пациентов», в то время как TAPP/TEP могут быть эквивалентными методами при рецидивах после открытой пластики или для пациентов с двухсторонними грыжами. Аналогичные выводы содержатся в рекомендациях EHS, на которые ссылается ИИ [16].

В исследовании F. Köckerling и соавт. «TAPP for Recurrent Inguinal Hernia» в журнале Surgical Endoscopy (2017), которое приведено для аргументации утверждений относительно TAPP и TEP (на самом деле называется «TEP or TAPP for recurrent inguinal hernia repair-register-based comparison of the outcome»), основной вывод звучит как: «TEP и TAPP являются эквивалентными хирургическими методами пластики рецидивной паховой грыжи после предыдущей открытой первичной операции».

Наконец, в третьем источнике нет упоминания о паховых грыжах [17].

Вопрос 4. В каких случаях необходима и когда не требуется фиксация сетки при паховой герниопластике?

ЯМ «отметила» отсутствие необходимости в фиксации сеток большого размера и самофиксирующих протезов. Техника лапаро-эндоскопической пластики обеспечивает «естественную фиксацию» сетки, однако при дефектах большого размера фиксация «может понадобиться». Дополнительная фиксация может требоваться при рецидивных или сложных паховых грыжах. Интересную ремарку ЯМ сделала относительно «индивидуальных характеристик» пациента, включающих возраст, телосложение, качество тканей, коморбидность и риск осложнений, которые необходимо учитывать в решении о необходимости фиксации без конкретизации соответствующих подходов. В ссылке на литературу по этому вопросу 3 источника, один из которых фальсифицирован («Systematic Review and Meta-Analysis of Randomized Controlled Trials Comparing Primary versus Mesh Closure of the Acute Incisional Hernia» в журнале The British Journal of Surgery), второй содержит информацию не по теме вопроса 4, а релевантную для вопроса 1 [18].

Вопрос 5. Какова тактика оперативного лечения рецидивных паховых грыж?

По мере усложнения вопросов, ИИ предоставил несколько утверждений не в плане заданного, а также перечислил все возможные операции (в том числе для вентральных грыж), без конкретизации показаний к какой-либо из них. При этом один из использованных источников [16] содержит точные и конкретные рекомендации по выбору метода пластики при рецидивной грыже с акцентом на выборе другого анатомического пространства по отношению к первичной операции. Эффективность такой тактики подтверждена во втором использованном источнике — F. Köckerling при изучении результатов лечения пациентов с рецидивными грыжами [19]. В этом вопросе так же, как в первом, отмечены статистически значимые различия в степени согласованности между ответами, полученными от экспертов и специалистов, вероятно, по причине того, что эксперты чаще оперируют пациентов с рецидивными грыжами.

Комментарий нейросети к результатам исследования

Содержание комментариев было следующим: «Несмотря на то что ИИ может стать ценным инструментом в здравоохранении, крайне важно тщательно выбирать системы ИИ, проверять их работоспособность и использовать их в сочетании с опытом медицинских работников. Специализированные медицинские модели ИИ могут предложить более надежную поддержку в принятии медицинских решений по сравнению с неспециализированными моделями, такими как ChatGPT».

Обсуждение

В настоящее время в медицине нейросети используют для лингвистической постобработки и написания текста — черновиков протоколов исследований, набросков статей, заявок на гранты, небольших заметок, а также отдельных фрагментов или целого текста и скрининга абстрактов для систематических обзоров. При этом ЯМ не всегда указывается в соавторах или в разделе «благодарности» [20, 21].

В хирургии ЯМ применяют для написания образовательных материалов для пациентов. J.S. Samaan оценил ответы на стандартные вопросы как верные и воспроизводимые, что позволило рекомендовать их использование для информационной поддержки пациентов в бариатрической хирургии [22]. N.F. Ayoub сравнил послеоперационные рекомендации для отоларингологических пациентов, созданные с помощью ChatGPT и Google Search, с рекомендациями, используемыми в клинике. Рекомендации чат-бота были признаны полезными, хотя их качество было ниже, чем у материалов Google Search и инструкций, разработанных в конкретном учреждении [23].

Другим направлением применения ИИ является поиск медицинской информации в электронных медицинских записях. Этот подход может значительно сократить человеческие и временные ресурсы и повысить продуктивность исследователей, однако не лишен риска системных ошибок.

Эволюция больших ЯМ как разновидности ИИ и их растущее использование в различных областях науки мотивирует к изучению их эффективности и безопасности [9]. Как и «естественный» интеллект, искусственный может демонстрировать «ненадлежащее» поведение, генерируя ошибочный текст, ложные данные или просто не следуя инструкциям [24, 25]. Важной проблемой является авторство и машинный плагиат, т.к. ИИ пишет текст с высоким уровнем оригинальности, а проверить авторство (человек или машина artificial-intelligence-produced text) практически невозможно. По этой причине важным направлением совершенствования ИИ является внедрение механизмов факт-чекинга, до настоящего времени отсутствующего или недостаточно эффективного.

Некоторые исследователи видят в развитии ЯМ угрозу. L. De Angelis и соавт. прогнозируют надвигающуюся на общественное здравоохранение инфодемию (infodemic threat) — пандемию статей, написанных ИИ [20]. Основанием к таким опасениям служит растущая самостоятельность в обучении. Если раньше ИИ «учился» под надзором (супервайзерством) человека, то с представлением в 2017 г. сетевой структуры, предназначенной для самообучения (Transformer), роль человека в обучении и управлении прогрессивно снижается.

Необходимо также решить вопрос этичности использования материала, направленного и предназначенного для принятия решения человеком у человека, созданного без участия человека. Респонденты, принявшие участие в исследовании, с большим оптимизмом относятся к перспективам нейросетей в медицине и в подавляющем большинстве выступают против ограничений в их использовании. Является ли это следствием недостаточного информирования специалистов о возможных недостатках и ограничениях в работе этих программ?

Существенным ограничением, присущим ИИ, можно назвать так называемые нейронные галлюцинации — генерация ошибочного или неверного текста ЯМ при ее «уверенности» в своих способностях правильно отвечать на вопрос и в верности предоставленного ответа. Вероятно, несколько сфальсифицированных статей, представленных в нашем исследовании и даже снабженных УД, были плодом таких галлюцинаций. Кроме этого, ряд рекомендаций, предоставленных нейросетью, не соответствовал надлежащей медицинской практике, описанной в клинических рекомендациях. Этот факт установили эксперты, но он остался незамеченным для большинства специалистов не экспертов.

Специализированные большие ЯМ демонстрируют выдающиеся результаты в стандартных тестах USMLE, но качество ответов резко падает при неудачной постановке вопроса, отсутствии вариантов ответов или недостаточно четких формулировках [4]. Механизмы, используемые чат-ботом для обработки запросов, непрозрачны, что затрудняет обнаружение ошибок, а их количество и частота растут пропорционально размеру ЯМ. Внедряясь в клиническую практику, такие ошибки могут представлять критический риск для здоровья пациентов. Возникает проблема юридической ответственности с сомнительными перспективами ее решения в ближайшем будущем. Очевидно, необходим специальный кодекс поведения или свод правил для использования ИИ в обучении и практике.

Реальная частота ошибок больших ЯМ неизвестна, и ее трудно установить, но наше исследование показывает, что когнитивное искажение — не редкость. Несмотря на способность обрабатывать огромные массивы данных, большие ЯМ, которые учатся на текстах, написанных людьми, повторяют ошибки нашего мышления и допускают более серьезные когнитивные искажения — специфические предсказуемые модели сбоев в человеческом сознании [26]. Можно ли избавиться от них в ИИ? Исследования еще продолжаются, но есть вероятность, что, как и люди, ИИ никогда не будет безупречным и абсолютно безопасным для своих создателей [26, 27]. Пока нельзя сказать, что ИИ обладает «интеллектом» в настоящем его понимании в сфере поиска решений в медицине. В настоящее время это в большей степени «продвинутый» поисковик, снабженный текстовым помощником и базой из готовых фраз и формулировок.

Это первое исследование, в котором специалистами с разным уровнем теоретической и практической подготовки проведена балльная оценка рекомендаций нейросети и изучена корреляция оценки и уровня оптимизма в отношении этой технологии.

Очевидно, имеющиеся ограничения не позволили нейросети «набрать» высокие баллы за ответы. В то же время скорость и успехи развития этой технологии на современном этапе развития технологий ЯМ ставят перед профессионалами здравоохранения и исследователями ряд важных вопросов уже сейчас. Можем ли мы предоставить врачам право принимать решения на основе рекомендаций и ответов ЯМ, зная о несовершенстве механизмов в основе ее функционирования? Должны ли мы в будущем учитывать указание врача на следование таким рекомендациям как отягчающее или смягчающее вину обстоятельства в юридической практике? Станет ли ИИ в целом и ЯМ в частности субъектом права? Как эффективно «научить» ЯМ функционированию в соответствии с гуманистическими идеалами и человеческими ценностями — может ли быть когда-либо создан «этический кодекс поведения» ЯМ, который будет ею самой соблюдаться? Если ответы ЯМ очевидно чувствительны к формулировкам, необходимы ли курсы по поиску информации с помощью ЯМ? Какое количество статей и заметок на медицинскую тематику в немедицинских журналах, влияющих на общественное мнение, написано сейчас и будет написано в будущем при помощи ЯМ? Как избежать при этом тенденциозности под влиянием личного отношения автора-заказчика, ставящего задачу ЯМ? Как повлияют ЯМ на навыки ученых в написании статей и может ли это стать причиной деноминации труда ученых? На эти и другие вопросы сегодня нет однозначного ответа, в то время как необходимость в них была уже вчера.

Сегодняшние неспециализированные большие ЯМ напоминают Гудвина из Изумрудного Города. Они производят впечатление могущественного волшебника, но не могут наделить врачей магическими способностями. Их эффективность в качестве системы медицинского поиска посредственна, и они склонны к повторению человеческих ошибок. Можно утверждать, что применение ЯМ в принятии решений врачами — дело недалекого будущего, и роль ИИ в медицине будет расти. Необходимы предикативные механизмы регулирования этого источника информации и поддержки решений, приведение его в юридическое поле, обучение пользованию этим инструментом специалистов.

Заключение

В настоящее время нельзя рекомендовать применение ИИ в качестве единственного или основного источника информации для принятия решения. Необходим не только «второй контур» защиты — оценка экспертом, супервайзером, но и подготовка юридической почвы для реализации решений, принятых на основе ИИ. Уже сейчас необходимо предикативное управление — разработка четких правил и гайдлайнов для врачей по правильному поиску и использованию информации, предоставляемой ИИ. В будущем ИИ могут быть рабочим инструментом поддержки, но не замены человека. Поскольку инструменты и коды для обучения ИИ открыты, перспективны, вероятно, кастомизированные ЯМ, обученные на большом объеме специфической медицинской литературы. И сами нейронные сети «подтверждают» это.

Участие авторов:

Концепция и дизайн исследования — Нечай Т.В.

Сбор и обработка материала — Богомолова А.К., Суглоб В.В., Бения Т.Р.

Статистическая обработка — Лобан К.М., Богомолова А.К.

Написание текста — Нечай Т.В.

Редактирование — Сажин А.В.

Авторы заявляют об отсутствии конфликта интересов.