Традиционные подходы к анализу недостатков медицинской помощи основаны на общеизвестных статистических методах обработки данных. Эти методы предоставляют обычные относительные или абсолютные цифровые значения, отображающие численность тех или иных дефектов медицинской помощи или их распространенность в работе врачей определенных специальностей. В условиях неочевидности, сложности и многофакторности системы, подлежащей исследованию, когда среди большого массива разрозненных данных необходимо выявить силу информационных взаимосвязей между этими данными [1], методов обычной статистической обработки становится недостаточно [2, 3]. В таких условиях для решения задач классификации и прогнозирования в медицине начали применять технологии искусственного интеллекта, например, технологию обработки и анализа данных Data Mining [4]. Самым популярным методом этой технологии является построение дерева решений (decision tree) [5].
Цель исследования — изучение возможности применения метода дерева решений для изучения экспертных особенностей дефектов медицинской помощи на примере материалов судебно-следственных дел, возбужденных против медицинских работников в случаях ненадлежащего исполнения ими своих профессиональных обязанностей.
Материал и методы
Исследовали материалы комиссионных судебно-медицинских экспертиз 350 жалоб на ненадлежащее оказание медицинской помощи («врачебные дела»), проведенных в Тернопольском, Житомирском и Черновицком областных бюро судебно-медицинской экспертизы (Украина) за период с 2007 по 2016 г. Изучили также 5056 сопутствующих медицинских (истории болезни, амбулаторные карты, заключения эксперта, протоколы исследований трупов и т. п.) и процессуальных (оригиналы уголовных дел, протоколы осмотра места происшествия и допросов, материалы служебной проверки качества медицинской помощи и т. п.) документов. Проанализировали 70 различных показателей каждого «врачебного дела»: вид допущенного дефекта (диа-гностический, лечебно-тактический, организационный, деонтологический, в медицинской документации); характер ненадлежащей медицинской помощи (недостаточность, несвоевременность, неправильность оказания или неоказание); этап медицинской помощи, на котором произошел дефект; специальность медицинского работника, допустившего ненадлежащие профессиональные действия; причины дефекта (объективные и субъективные) и его последствия; наличие причинно-следственной связи. Таким образом, банк собранных данных составил 24 500 показателей, статистическую обработку и визуализацию которых выполнили с помощью табличного процессора MS Excel 2016.
Метод дерева решений — это средство принятия решений при статистической обработке и анализе определенной базы данных с помощью технологий искусственного интеллекта. Суть метода заключается в составлении математической модели, которая устанавливает зависимость так называемой целевой переменной — атрибута (фактора, влияние на который исследуют), от многих других независимых переменных (атрибутов), и прогнозирует вероятность определенного значения этой переменной [2, 4, 5].
Если целевая переменная принимает дискретные значения (например, «да» или «нет»), то с помощью метода дерева решений устанавливается ее зависимость от множества других независимых переменных и решается задача прогнозирования.
Впервые дерево решений предложили ученые-программисты Йельского университета (США) E. Hunt и C. Hov-land [6] в 60-е годы XIX века. В простейшем виде дерево решений — это способ представления правил в иерархической структуре. Основа такой структуры — ответы «да» или «нет» («yes» или «no» для языка программирования) на определенные вопросы. В каждом исследованном случае «врачебного дела» отмечали наличие или отсутствие каждого из указанных ранее 70 показателей. Их дискретные значения в виде ответов «yes» или «no» (математически обозначали «1» или «0» соответственно) вносили в общую карту и форматировали в табличном процессоре MS Excel 2016. Полученные таким образом данные в дальнейшем были доступны для необходимой математической обработки специально разработанным для метода индукции дерева решений алгоритмом С 4.5, доступным в лицензионной среде RStudio [7].
Теоретические основы метода дерева решений. Математическая задача индукции дерева решений формулируется следующим образом. Имеем множество D, которое содержит N наборов данных. Каждый i-й набор (A1i, A2i, …, Api, Ci) состоит из входных данных — атрибутов A1,…, Ap и выходных данных — атрибутов класса С. Атрибуты A1,…, Ap могут принимать как числовые, так и категориальные значения. Атрибут класса С принимает только одно из К дискретных значений: С Î {1,…,K}. Целью является прогнозирование с помощью дерева решений значения атрибута класса С на основе значений атрибутов A1,…, Ap. Алгоритм индукции дерева решений автоматически разбивает на узлах числовые значения атрибутов Ai на два интервала: Ai ≤ xi и Ai > xi, а категориальные Aj — на два подмножества: Aj Î Sj, Aj Ï Sj. Разбивание числовых атрибутов основывается на мере энтропии или на индексе Джинни. Этот процесс рекурсивно повторяется до тех пор, пока не будет улучшаться точность прогнозирования. Технические подробности создания алгоритма метода индукции дерева решений приведены в работе В.П. Марценюк и соавт. [7].
Результаты и обсуждение
Процесс создания дерева решений в случаях судебно-медицинской экспертизы дефектов медицинской помощи начинается с установления зависимой (целевой) переменной, т. е. главного параметра, связь которого с другими следует установить, математически доказать силу этой связи и рассчитать вероятность значения самой переменной. Например, среди пяти основных видов недостатков медицинской помощи, как сообщалось ранее [8], самыми распространенными среди исследованных материалов экспертиз по «врачебным делам» стали диагностические и лечебно-тактические дефекты (72,4 и 65,6% соответственно). Указанные величины, однако, недостаточно информативны, поскольку не дают должного представления о степени связанности этих дефектов между собой, с врачебной специальностью, этапом медицинской помощи, условиями оказания медицинской помощи и т. д.
Приводим методику построения дерева решений на примере выяснения особенностей лечебно-тактических ошибок врачей и для установления вероятности возникновения этого вида дефектной медицинской помощи на фоне остальных исследуемых параметров (атрибутов).
Для обеспечения корректной работы алгоритма целевая переменная (лечебно-тактические недостатки) должна получить соответствующую аббревиатуру на английском языке. Назовем ее «tactic». Аналогично следует предоставить англоязычные названия для остальных атрибутов, связь лечебно-тактических ошибок с которыми исследуется.
Дерево, которое будет смоделировано, дает ответ на вопрос, каким будет прогнозируемое значение дефектов в лечебно-тактической деятельности врачей при известных значениях других атрибутов. Реализация этой задачи заключается в поиске именно таких атрибутов, которые являются наиболее информативными по отношению к целевой переменной (в данном примере — дефектов в лечении и тактике ведения пациентов). Такими наиболее значимыми параметрами (из изучаемых 70 показателей для каждого «врачебного дела») алгоритмом C4.5 были отобраны следующие атрибуты (см. таблицу).
Из этих атрибутов алгоритм выбирает определенные атрибуты в качестве внутренних узлов дерева, по которым осуществляется его дальнейшее постепенное ветвление. При построении дерева необходимо, чтобы целевая переменная «tactic» (лечебно-тактические дефекты) принимала значение строго одного типа («yes» или «no»), что составляет листья дерева. Каждый лист характеризуется вероятностью получения целевой переменной конкретного значения, т. е. вероятностью принадлежности к классу «tactic: yes» или «tactic: no».
Далее конструирование дерева решений происходит в два этапа: построение классификационной модели и ее использование.
На этапе построения модели строится дерево классификации, где путь от его корня к одной из вершин является набором правил для конкретного случая и используется для ответа на вопрос «Какова вероятность целевой переменной «tactic»? (см. рисунок),
т. е. «Какая вероятность возникновения лечебно-тактических ошибок при условии предоставления медицинской помощи врачом определенной специальности, на определенном этапе, с учетом других видов дефектов медицинской помощи, объективных и субъективных факторов, которые им способствовали, негативных последствий». Правилом в нашем случае является логическая конструкция, представленная в виде «если …, то tactic: yes с соответствующей вероятностью» или «если …, то tactic: no с соответствующей вероятностью». Это позволяет сделать вывод: «если лечебно-тактические недостатки имеют место, то … » или «если лечебно-тактические недостатки не были допущены, то … ».В построенном дереве решений различают следующие основные элементы:
— корень дерева — это определенный алгоритмом атрибут, который имеет самую сильную информативную связь (attribute usage 100%) с исследуемой целевой переменной. В данном случае это «unsuf_» (недостаточная медицинская помощь);
— внутренние узлы дерева — это другие отобранные по исследуемой базе данных атрибуты в соответствии с их информативностью по отношению к главному фактору (целевая переменная). Эти атрибуты называют атрибутами расщепления (splitting attribute). Для построенного дерева решений (см. рисунок) такими атрибутами являются «dif_dig» (трудности диагностики), «regum» (нарушение пациентом больничного режима), «improp» (неправильная медицинская помощь), «unskill» (неквалифицированные действия медицинского персонала), «hospit» (предоставление ненадлежащей медицинской помощи на госпитальном этапе), «Exitus» (летальный исход), «rapid» (быстрое течение патологического процесса);
— лист дерева, или конечный узел дерева, представляет собой значение целевой переменной «tactic», которое предполагает только два варианта ответа: «yes» или «no» («да» или «нет»), — так называемая бинарная модель дерева решений (дихотомическая классификация). Лист дерева характеризуется вероятностью получения целевой переменной конкретного значения р. Чем больше значение р, тем выше вероятность конкретного значения («да» или «нет») главного атрибута, который исследуется;
— ветвь дерева — последовательность вариантов ответа («да» или «нет»).
Каждая ветвь дерева, которая идет от внутреннего узла, отмечена предикатом расщепления. Последний может относиться только к одному атрибуту расщепления данного узла. Характерная особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу решения. Объединенная информация об атрибутах расщепления и предикат расщепления в узле называются критерием расщепления (splitting criterion). Выбор конкретного атрибута для расщепления — самое важное место любого алгоритма построения дерева решений. Критерий расщепления формализуется с определенными математическими выражениями, с помощью которых анализируется информационная энтропия на каждом этапе построения дерева, начиная от выбора вершины и до всех конечных вершин. Самыми известными из существующих критериев расщепления являются мера энтропии и индекс Джинни.
Построение дерева решений происходит сверху вниз, т. е. по нисходящей. Во время этого процесса алгоритм должен найти такой критерий расщепления, чтобы с его помощью разбить множество исследуемых данных на под-множества, которые ассоциировались бы с определенным внутренним узлом дерева. Каждый такой узел должен быть обозначен определенным атрибутом. Существует правило выбора атрибута: он должен разбивать входное множество данных таким образом, чтобы получаемые в результате этого объекты подмножеств были представителями одного класса. Для анализа лечебно-тактических дефектов алгоритм выбрал 232 случая «врачебных дел», в которых были подтверждены судебно-медицинскими экспертными комиссиями те или иные недостатки в оказании медицинской помощи. Таким образом, база данных, обработанных методом дерева решений для установления экспертных особенностей лечебно-тактических дефектов медицинской помощи, составила 232 ‧ 70 = 16 240 атрибутов.
Наряду с построением графической модели (собственно дерево решений) алгоритм С4.5 также создает так называемый листинг, который представляет собой текстовый результат работы компьютерной программы, написанной на языке программирования R. В этом листинге приводится перечень избранных по критерию расщепления атрибутов с указанием их числовых значений (см. рисунок: таблица в правом верхнем углу).
По критерию расщепления, который на каждом шагу рассчитывает информационную энтропию, пересматриваются все независимые атрибуты. В качестве корня дерева решений алгоритмом С4.5 избран атрибут «unsuf_» — недостаточная медицинская помощь как атрибут с наибольшим значением критерия расщепления среди всех остальных. Другими словами, использованная при анализе материалов «врачебных дел» технология обработки данных Data Mining доказала, что лечебно-тактические недостатки наиболее тесно связаны с недостаточным уровнем оказания медицинской помощи («attribute usage» составил 100%), т. е. математически обоснованно следует утверждать, что лечебно-тактические ошибки происходят тогда, когда объем лечебно-профилактических мероприятий недостаточный. Верно также и обратное утверждение: констатация экспертной комиссией недостаточности оказанной медицинской помощи в соответствии с технологией искусственного интеллекта Data Mining доказывает наличие лечебно-тактического дефекта, что обязательно должно быть отражено в экспертном заключении.
Атрибут «unsuf_» (недостаточная медицинская помощь) разбивает все множество «врачебных дел», в которых были обнаружены дефекты медицинской помощи (232 случая), на два подмножества. В одном из них во всех строках в поле «unsuf_» будет стоять значение «yes» (таких случаев 134 + 5 = 139), во втором — «no» (таких случаев 2 + 15 + 2 + 26 + 5 + 30 + 13 = 93). Далее подмножество (139 случаев), образовавшееся соответственно значению «unsuf_ = yes», алгоритмом разбивается еще на два подмножества по атрибуту расщепления «dif_dig» (трудности диагностики), ставшие причиной ненадлежащего оказания медицинской помощи. Этот атрибут среди всех других, кроме «unsuf_», обеспечил максимальное значение критерия расщепления среди 139 случаев (attribute usage 59,91%), для которых «unsuf = yes».
Соответственно значению «unsuf= yes» и «dif_dig = no» образовалось подмножество из 134 случаев, в которых по листингу (134 – 17 = 117) имеют значение целевой переменной «tactic = yes». Итак, с вероятностью 117/134 (р=0,87) случаи, в которых «unsuf_ = yes» и «dif_dig = no», принадлежат к классу «tactic = yes». Это означает, что при недостаточном объеме оказанной медицинской помощи и отсутствии объективной причины в виде трудностей диагностики лечебно-тактические ошибки возникают с вероятностью р=0,87 (n=134).
По ветви «unsuf_ = yes» и «dif_dig = yes» образовалось подмножество из 5 случаев, в которых (5 – 1 = 4) имеют значение целевой переменной «tactic = no». Таким образом, с вероятностью 4/5 (р=0,8) случаи, в которых «unsuf_ = yes» и «dif_dig = yes», принадлежат к классу «tactic = no». Вместе с тем небольшое количество случаев (5) не позволяет экстраполировать полученное утверждение на все множество наблюдений.
Далее подмножество, образованное по значению «unsuf_ = no» (93 случая), разбивается еще на два подмножества по атрибуту расщепления «regum» (нарушение больным больничного режима). Этот атрибут среди всех других, кроме «unsuf», обеспечил максимальное значение критерия расщепления среди 93 случаев, для которых «unsuf = no».
По значению «unsuf_= no» и «regum = yes» образовалась подмножество из 2 случаев, в которых значение целевой переменной «tactic = yes». Итак, с вероятностью 2/2 (р=1) случаи, в которых «unsuf_ = no» и «regum = yes», принадлежат к классу «tactic = yes». Из-за малого числа случаев (2 из 93) заключение о связи нарушения больным больничного режима с лечебно-тактическими ошибками врачей не имеет достаточного обоснования.
Следует отметить, что по значению «unsuf = no» и «regum = no» образовалось подмножество из 91 случая, для которого далее применяется алгоритм и отыскивается атрибут расщепления, который имеет максимальное критериальное значение среди всех оставшихся, кроме «unsuf_» и «regum». Следующим узлом дерева по ветви «unsuf_- no — regum — no» идет узел «improp», который означает допущенный врачами недостаток в виде неправильно оказанной медицинской помощи. Ветвь «yes» этого узла показывает, что в 14 из 15 случаев «врачебных дел», в которых экспертными комиссиями была установлена неправильная медицинская помощь, подтверждались также лечебно-тактические ошибки медицинского персонала. Иными словами, при отсутствии недостаточного объема оказанной медицинской помощи и нарушений пациентами больничного режима влияние на возникновение лечебно-тактических ошибок с вероятностью р=0,93 (14/15) имеет такой вид дефектной медицинской помощи, как неправильное ее оказание.
Дальнейший анализ терминальных узлов построенного дерева свидетельствует об определенной связи лечебно-тактических ошибок врачей с предоставлением медицинской помощи на госпитальном этапе (attribute usage 31,90%). Наступлению для пациента летального исхода («Exitus — yes») с вероятностью р=0,61 (8/13, n=13) способствовала объективная причина в виде быстрого течения патологического процесса (терминальный узел дерева «rapid»).
Таким образом, с учетом исключительной важности для следствия не предположительности (вероятности), а достоверности (подлинности) экспертных выводов, на чем акцентируют внимание А.В. Ковалев и соавт. [9], представленные в статье доводы могут быть полезными для судебно-медицинских экспертных комиссий при расследовании дел, связанных с правонарушениями в профессиональной деятельности медицинских работников.
Кроме того, установленные вследствие применения метода дерева решений конкретные критерии риска возникновения лечебно-тактических дефектов могут помочь органам здравоохранения в разработке необходимых профилактических мероприятий, способствующих предотвращению врачебных ошибок.
По аналогии метод дерева решений можно использовать для анализа недостатков во время исполнения профессиональных обязанностей медицинскими работниками различных специальностей, а также причин, условий и исходов этих недостатков, установления их взаимосвязи с организационными упущениями в работе лечебно-профилактических учреждений и т. п.
Заключение
Применение современных технологий анализа и обработки данных (таких, как Data Mining), в том числе определенных методов этих технологий (например, метода индукции дерева решений), дает возможность для практической судебно-медицинской экспертизы находить математически обоснованные утверждения, способствующие достоверности заключений экспертов в случаях «врачебных дел».
Авторы заявляют об отсутствии конфликта интересов.
The authors declare no conflicts of interest.