В настоящее время одной из самых быстро развивающихся междисциплинарных областей науки на стыке медицины и прикладной математики является цифровая патология (англ. digital pathology), которая изучает алгоритмы автоматического анализа гистологических изображений в целях разработки систем поддержки принятия врачебных решений при морфологической диагностике различных заболеваний. Основной объект изучения — гистологические изображения, полученные с использованием высокопроизводительных цифровых сканирующих микроскопов (WSI-изображения, whole slide images) и коллекции WSI-изображений. Основной метод, используемый в цифровой патологии, — математические алгоритмы, основанные на методах машинного обучения. Машинное обучение (англ. machine learning) представляет собой подмножество методов искусственного интеллекта.
Методы машинного обучения позволяют строить математические модели, параметры которых находятся за счет оптимизационных методов при анализе размеченных данных (в конкретном случае изображений). Этот процесс называется «обучение модели», а данные, на основе которых подбираются параметры модели, — «обучающие». После обучения модели на обучающих данных ее можно использовать на новых неразмеченных данных и тем самым автоматизировать их анализ.
Считается, что одна из наиболее значимых проблем, возникающих при автоматическом анализе гистологических изображений с использованием методов машинного обучения, заключается в том, что исследователям доступно лишь небольшое количество тренировочных данных. Большое количество доступных изображений является непременной составляющей для достижения высокой эффективности при использовании методов машинного обучения с привлечением «учителя». Кроме того, ситуация осложняется еще и высокой гетерогенностью гистологических структур, что увеличивает необходимый объем тренировочных данных [1].
Получение большого объема обучающих данных для анализа гистологических изображений также осложняется необходимостью привлечения трудовых ресурсов врачей-патологоанатомов, часто очень значительных. Точная разметка границ мелких гистологических структур требует от врача высокой квалификации и много рабочего времени.
В качестве одного из решений данной проблемы предлагается использование общедоступных, размеченных, аннотированных и готовых к анализу наборов изображений для машинного обучения [1]. Каждый раздел патологии представлен характерными гистологическими структурами органов и тканей. Для каждого раздела патологии существует одна — максимум две открытых размеченных и аннотированных коллекции изображений.
Например, коллекция Warwick-QU содержит WSI-изображения 165 окрашенных гематоксилином и эозином препаратов толстой кишки нормального строения и при некоторых патологических процессах коллекция изображений предоставляется вместе с аннотациями, сделанными опытными патологами. Количество данных в этом наборе признается исследователями недостаточным для решения задач анализа изображений на основе технологий машинного обучения [1, 2].
С позиций развития цифровых технологий в патологии существует острая необходимость создания новых размеченных и аннотированных коллекций гистологических изображений [2], включающих материалы по широкому спектру патологии. Создание новых коллекций позволит увеличить эффективность анализа изображений на основе технологий машинного обучения, даст возможность валидировать результаты и апробировать их в качестве вспомогательного инструмента в диагностической практике.
Для разработки больших моделей нейронных сетей «с нуля» требуется огромное количество тренировочных данных для достижения хороших результатов. В случае наличия только небольшого количества тренировочных изображений существует два варианта адаптирования нейронной сети: обучение более мелких моделей нейронных сетей «с нуля» или использование предварительно обученных моделей глубоких нейронных сетей в качестве отправной точки. В настоящее время из-за отсутствия класса моделей, специально предназначенных для анализа гистопатологических изображений, часто используются модели, адаптированные с помощью обычных изображений, таких как ImageNet [3]. В последнее время растет число доступных крупномасштабных наборов WSI-изображений [4, 5]. Несмотря на то что эти наборы данных могут быть использования для разработки предварительно обученных математических моделей, они характеризуются целым рядом недостатков.
Например, большинство доступных в настоящее время цифровых гистологических изображений аннотируется только названием болезни (аннотация на уровне случая). Однако во многих случаях характерные микроскопические признаки патологического процесса, в том числе фрагменты опухолевой ткани, занимают относительно небольшую часть WSI-изображения, а большая его часть приходится на обычные гистологические структуры. Кроме того, относительное расположение области опухолевой ткани в WSI-изображении также значительно варьирует от случая к случаю. Очень высокая степень вариабельности гистологических изображений сильно отличает процесс их распознавания от процесса анализа общего типа или даже некоторых типов медицинских изображений, таких как изображения, полученные с использованием рентгеновских методов, где область интереса (от англ. Region of Interest, ROI) обычно присутствует в определенных диапазонах положения и размера, и всю ROI легко выровнять. Поэтому при аннотации гистологических изображений значительно усложняется процесс разметки. Во многих случаях необходимо обвести ROI (например, область опухолевой ткани) замкнутым контуром на WSI-изображении в форме многоугольника либо использовать линию, нарисованную вручную. Эти особенности аннотации требуют привлечения к разметке высококвалифицированных врачей-патологоанатомов.
Один из способов увеличить количество обучающих данных — сократить рабочее время врача-патологоанатома, которое необходимо для ручного выделения ROI во WSI-изображении. Простые в использовании инструменты с графическим интерфейсом могут помочь врачу-патологоанатому эффективно маркировать большее количество образцов за более короткие периоды времени [6, 7]. Например, Cytomine [6] позволяет экспертам не только выделять ROI эллипсами, прямоугольниками, многоугольниками или нарисованными от руки линиями, но и применяет алгоритмы поиска изображений на основе контента для ускорения аннотирования. Еще одна интересная идея по сокращению рабочего времени — автоматическая локализация ROI непосредственно во время диагностической работы врача путем фиксации его действий и тех областей, на которые врач обращает внимание. Этот подход отслеживает движение глаз патологоанатома [8], положение курсора мыши [9] и изменение окна просмотра [10]. Однако точно локализовать области интереса на основе этих данных отслеживания достаточно сложно, так как врач-патологоанатом не всегда тратит время на изучение области интереса, а информация о границах, полученная с помощью этих подходов, значительно менее точная.
Другим подходом, применяемым для автоматического и полуавтоматического анализа гистологических изображений, является активное обучение [4, 11—13], которое представляет собой подход, используемый в обучении с «учителем», при применении которого производится автоматический выбор наиболее релевантного немаркированного образца (т.е. тот, который, как ожидается, улучшит эффективность модели классификации при правильной маркировке и добавлении в набор обучающих данных) и предоставление его врачу для последующей маркировки [14, 15].
В ходе данного исследования были разработаны собственные методические подходы к аннотированию и разметке гистологических изображений применительно к задаче автоматической сегментации слоев стенки желудка и глубины инвазии рака желудка.
Материал и методы
В данном исследовании были использованы три разных коллекции изображений, разработанных с целью сегментации WSI-изображений и автоматического распознавания слоев стенок органов пищеварительного тракта. Две коллекции находились в открытом доступе, а третья была собрана авторами этого исследования.
Первый набор данных NCT-CRC-HE-100K [16] состоит из 100 000 неперекрывающихся фрагментов гистологических WSI-изображений колоректального рака человека и нормальной неизмененной ткани толстой кишки, окрашенных гематоксилином и эозином. Каждый фрагмент WSI-изображения характеризуется 20-кратным увеличением и имеет разрешение 224×224 пк и соответствует одной из 9 меток классов в зависимости от типа ткани или фона:
— жировая ткань (ADI);
— фон изображения (BACK);
— некротический детрит (DEB);
— лимфоидная ткань и лимфоциты (LYM);
— слизь (MUC);
— гладкомышечные клетки (MUS);
— нормальная слизистая оболочка толстой кишки (NORM);
— строма опухоли (STR);
— ткань опухоли (TUM).
Эти фрагменты (патчи) были извлечены из 86 WSI-изображений, окрашенных гематоксилинои и эозином, при обследовании 86 пациентов с колоректальным раком [16].
Второй набор данных CRC-VAL-HE-7K [16] состоит из 7180 фрагментов изображений 50 пациентов с колоректальным раком (без совпадения с пациентами в NCT-CRC-HE-100K). Авторы набора данных рекомендуют использовать его в качестве проверочного набора для моделей, обученных на более крупной коллекции NCT-CRC-HE-100K. Как и в наборе NCT-CRC-HE-100K, изображения из CRC-VAL-HE-7K характеризуются 20-кратным увеличением, имеют размер 224×224 пк и соответствуют тем же 9 классам, описанным выше.
Третий набор данных PATH-DT-MSU был собран в отделе клинической патологии Медицинского научно-образовательного центра МГУ им. М.В. Ломоносова. Так, PATH-DT-MSU является оригинальной коллекцией обычных и гистологических WSI-изображений с полной разметкой и аннотацией. На данный момент в коллекции насчитывается более 100 изображений. Коллекция постоянно пополняется и находится в открытом доступе1. В этом исследовании использовано подмножество набора данных PATH-DT-MSU, включающее 20 гистологических WSI-изображений опухолей желудка, окрашенных гематоксилином и эозином. Каждое изображение представляет собой фрагмент стенки желудка, вырезанный из операционного материала, и включает участки аденокарциномы, прилежащие участки визуально неизмененной собственной пластинки желудка и подлежащие слои стенки желудка (мышечную пластинку слизистой оболочки, подслизистую основу, собственный мышечный слой, субсерозные отделы). Каждое изображение проаннотировано, в частности, с помощью многоугольников выделены области, соответствующие различным типам ткани. Изображения сканировали с 20- и 40-кратным увеличением, они имеют разрешение до 111552×90473 пк. Изображения получены с помощью сканирующего микроскопа Leica Aperio AT2 (Leica Microsystems Inc., Германия), аннотации сделаны с помощью Aperio ImageScope 12.3.3 (Leica Microsystems Inc., Германия).
Фрагменты изображений, используемые для тестирования автоматических методов обработки (далее — патчи) из набора данных NCT-CRC-HE-100K, доступны в двух версиях: с нормализацией цвета, предложенной M. Macenko и соавт. [16], и без нее, патчи изображений из CRC-VAL-HE-7K доступны только в версии с нормализацией цвета. Нормализация по цвету позволяет использовать набор CRC-VAL HE-7K для проверки модели, обученной на NCT-CRC-HE-100K, без каких-либо модификаций.
Аннотации WSI-изображений из коллекции PATH- DT-MSU, сделанные с помощью программного обеспечения Aperio ImageScope, преобразованы (проведено упрощение структуры, удалены лишние метаданные), переведены в формат json и доступны к скачиванию вместе с самими WSI-изображениями PATH-DT-MSU.
Чтобы обучить модель классификации патчей и сделать собранный набор данных PATH-DT-MSU совместимым с NCT-CRC-HE-100K и CRC-VAL-HE-7K, патчи извлекали из изображений в соответствии с созданными полигональными аннотациями. Для обучающего набора использовали скользящее окно размером 320×320 пк, которое перемещается по каждому WSI-изображению с шагом 160 пк. В каждой позиции определяется, пересекает ли окно какой-либо из многоугольников аннотаций и, если пересечение происходит, вычисляется площадь пересечения. Если площадь пересечения больше 0,75 от площади окна, патч, соответствующий текущему положению окна, извлекается и добавляется в обучающую выборку.
Важно, что патчи относятся именно к процессу обучения и не представлены в коллекции изображений PATH-DT-MSU.
Для тестового подмножества процесс извлечения патчей такой же, как и для обучающего подмножества, за исключением того, что размер окна составляет 224×224 пк, а шаг — 112 пк. Различный размер окон выбран для того, чтобы к обучающему набору извлеченных патчей можно было применить методы аугментации с вращением на произвольный угол. Шаг смещения движущегося окна в обоих случаях равен половине размера окна.
Описанная процедура извлечения патчей с текущими аннотациями изображений из набора PATH-DT-MSU позволила извлечь 70871 патч из обучающего подмножества и 14462 патча из тестового подмножества.
Также необходимо отметить, что все три набора данных, использованных в нашей работе, являются несбалансированными (количество патчей в каждом из классов, соответствующих различным типам ткани, сильно различается). В целях устранения дисбаланса, крайне негативно влияющего на качество обучаемой нейросетевой модели классификации, был использован дополнительный математический метод, который позволил добиться того, что количество патчей каждого класса, подаваемых в нейросетевую модель во время обучения, стало одинаковым.
В нашем исследовании в качестве классификатора патчей WSI-изображений использовалась модель на основе сверточной нейронной сети (от англ. Convolutional Neural Network, CNN). Поскольку количество данных в полученных наборах ограничено и мало для решения задач классификации изображений общего типа, был выбран особый тип математического алгоритма DenseNet [17], который характеризуется высокой эффективностью в случае относительно небольшого объема обучающих выборок. DenseNet — это дальнейшее развитие алгоритмов типа ResNet [18] с дополнительными прямыми соединениями между любыми двумя слоями в пределах одного и того же плотного блока (Dense Block). DenseNet состоит из нескольких плотных блоков, каждый из которых соответствует фиксированному пространственному размеру карты признаков. Визуализация оригинальной архитектуры DenseNet, используемой для решения задачи классификации на наборе данных ImageNet, показана на рис. 1.
Рис. 1. Исходная архитектура сверточной нейронной сети DenseNet [по 19].
Для использования DenseNet в рамках решаемой задачи классификации фрагментов ткани гистологических изображений архитектура сети была модифицирована. Изменены количество плотных блоков, а также классифицирующая часть сети. Кроме того, для наиболее эффективного использования всех имеющихся наборов данных, включая NCT-CRC-HE-100K и CRC-VAL-HE-7K, была предложена и реализована трехэтапная схема обучения модели [20].
Результаты и обсуждение
Разработка оригинальной методики разметки и аннотации гистологических изображений
Схема разметки и классы тканей, предложенные авторами коллекций изображений NCT-CRC-HE-100K и CRC-VAL-HE-7K [16], характеризуются рядом недостатков, особенно применительно к распознаванию слоев стенки желудка и опухолей желудка. Во-первых, часть выделенных классов встречается не во всех фрагментах стенки желудка, вырезаемых в ходе рутинного диагностического процесса. Так, например, не на всех фрагментах встречаются достаточно крупные области скоплений лимфоцитов (класс LYM), не всегда встречается некротический детрит (DEB). Во-вторых, выделение такого класса, как строма опухоли (STR), значительно затрудняет разметку изображения, поскольку области стромы диффузно расположены между опухолевыми клетками, а их отдельная разметка может приводить к появлению большого количества ошибок. Также крупные фрагменты стромы опухоли могут быть очень сходны с отдельными фрагментами подслизистой основы. В-третьих, в данной системе классов и методике разметки отсутствуют классы, в которые можно было бы объединить различные артефакты препарата: разрывы, трещины и др.
Исходя из проанализированного опыта формирования системы классов и методики разметки, была предложена следующая собственная оригинальная методика разметки и аннотирования изображений применительно к распознаванию слоев стенки желудка и опухолей желудка. Такая система разметки включает 5 классов (типов тканей):
— участки аденокарциномы желудка (TUM);
— неизмененные участки собственной пластинки слизистой оболочки (LP);
— неизмененные участки мышечной пластинки слизистой оболочки (MM);
— класс подлежащих тканей: участки подслизистой основы, собственный мышечный слой желудка и субсерозные отделы (AT);
— фон изображения (BG).
Эти 5 предложенных классов были выделены, исходя из следующей логики. В процессе обучения сначала необходимо отделить опухолевую ткань от всех остальных видов нормальных тканей в стенке желудка — так был сформирован класс TUM.
Также необходимо обеспечить распознавание непосредственно прилежащих к опухоли участков тканей, в первую очередь, неизмененных областей собственной пластинки слизистой оболочки (класс LP). Следует начинать обучение алгоритма именно с этого класса, так как опухолевые структуры рака желудка, особенно тубулярные и ацинарные, по своим очертаниям и форме могут быть сходны с железами собственной пластинки слизистой оболочки желудка, а следовательно, эти два класса могут распознаваться алгоритмом неэффективно. Поэтому необходимо обеспечить дифференцированное распознавание этих двух классов.
Неизмененные участки мышечной пластинки слизистой оболочки (MM) были выделены в отдельный класс, исходя из того, что мышечную пластинку можно считать условной линией, которая достаточно четко разделяет собственную пластинку слизистой оболочки и все остальные слои стенки. При этом мышечная пластинка по цветовым характеристикам и структуре достаточно выраженно отличается от классов TUM и LP, что позволяет использовать ее в качестве ориентира как в процессе разметки изображения, так и обучения, а в перспективе будет позволять автоматически определять пенетрацию опухолью мышечной пластинки при автоматическом анализе глубины инвазии.
Класс подлежащих тканей (АТ) был выделен в целях упрощения процесса обучения математического алгоритма на ранних этапах. Более того, в подслизистой основе наиболее часто наблюдаются различные артефакты (разрывы и трещины), в связи с чем в процессе анализа данный класс может частично перекрываться с классом фона изображения (BG). Также субсерозные участки по структуре крайне схожи с подслизистой основой, поскольку оба слоя представляют собой, по сути, фрагменты фиброзно-жировой ткани. Собственный мышечный слой желудка был включен в данный класс для того, чтобы в процессе обучения математический алгоритм не распознавал одинаково мышечную пластинку и собственный мышечный слой, которые имеют одинаковую структуру и цветовые характеристики. Объединение собственного мышечного слоя стенки желудка вместе с подслизистой основой и субсерозными отделами позволило с большей точностью проводить детекцию мышечной пластинки.
Класс фона изображения (BG) необходимо выделять в любом случае, так как математическому алгоритму необходима информация о том, какие зоны по цвету и текстуре соответствуют фону, чтобы исключить перекрытия между фоном и значимыми элементами гистологического изображения.
Результаты распознавания слоев стенки желудка и зоны опухолевой ткани (апробация оригинальной методики разметки и аннотации гистологических изображений)
Аннотации изображений, выполненные по 5 представленным выше классам, представляют собой набор многоугольников, все пиксели внутри которых принадлежат к одному классу (тип ткани или фон). Описанные аннотации WSI-изображений из PATH-DT-MSU созданы в программном обеспечении Aperio ImageScope и сохранены в виде XML-файлов. Пример WSI-изображения из коллекции PATH-DT-MSU с его аннотацией показан на рис. 2.
Рис. 2. Пример WSI-изображения фрагмента стенки желудка из коллекции PATH-DT-MSU с его аннотацией.
Область класса: TUM — контуры синего цвета; LP — зеленого цвета; MM — красного цвета; AT — оранжевого цвета; BG — фиолетового цвета.
Также стоит отметить, что площадь аннотированных областей в наборе данных PATH-DT-MSU относительно мала по сравнению с таковой всего WSI-изображения. Основная причина этого — необходимость выбора только участков с истинной «чистой» текстурой, наиболее характерной для каждого из соответствующих 5 классов. Также объективной причиной этого факта является сложность и трудоемкость процесса аннотирования WSI-изображений.
Все WSI-изображения из коллекции PATH-DT-MSU были разделены на обучающий и тестовый наборы. Обучающий и тестовый наборы содержат по 10 аннотированных изображений каждый.
Мы впервые применили алгоритм непосредственно к WSI-изображению с 40-кратным увеличением, при этом время обработки одного такого изображения на этапе тестирования составляло в среднем 2 мин.
Результаты апробации оригинальной методики разметки в процессе реального обучения используемой нейросетевой модели представлены в таблице, из которой видно, что основные перекрытия наблюдаются между классами TUM и LP, т.е. между областями опухолевой ткани и неизмененной собственной пластинки слизистой оболочки. При этом благодаря объединению собственного мышечного слоя с подслизистой основой и субсерозными отделами в класс AT алгоритм показал хорошие результаты при распознавании мышечной пластинки (MM). Также из-за наличия разрывов и трещин в подслизистой основе произошло перекрытие между классом подлежащих тканей AT и фоном изображения BG.
Результаты обучения алгоритма — матрица ошибок
Предсказано/ аннотировано |
AT |
BG |
LP |
MM |
TUM |
AT |
1481 |
0 |
1 |
9 |
0 |
BG |
41 |
11210 |
1 |
0 |
0 |
LP |
2 |
0 |
492 |
0 |
96 |
MM |
9 |
0 |
1 |
200 |
1 |
TUM |
0 |
0 |
109 |
19 |
790 |
Визуализация результатов автоматического анализа изображения на предмет распознавания 5 слоев ткани представлена на рис. 3.
Рис. 3. Пример результата автоматического распознавания слоев стенки желудка 5 классов. Сегментация представлена в виде полупрозрачной цветной маски.
Область класса: TUM — выделены фиолетовым цветом; LP — зеленым цветом; MM — красным цветом; AT — оранжевым цветом; BG — голубым цветом.
Преимущества и недостатки оригинальной методики разметки и аннотации гистологических изображений
К преимуществу представленной оригинальной методики разметки и аннотации изображений относится обеспечение высокой эффективности распознавания мышечной пластинки (MM). Таким образом, обеспечено распознавание естественной «линии», разделяющей собственную пластинку слизистой оболочки и все другие подлежащие слои стенки желудка. Мышечная пластинка в перспективе может рассматриваться в качестве основного ориентира при разработке реального диагностического алгоритма в целях автоматического определения глубины инвазии рака желудка.
В целом определение глубины инвазии (T) опухолей пищеварительного тракта (опухоли желудка и толстой кишки) может рассматриваться в качестве одной из важнейших задач хирургической патологии, поскольку глубина инвазии признается достоверным высокозначимым негативным прогностическим фактором. Если определение глубины инвазии опухолей пищеварительного тракта на поздних стадиях является для врача-патологоанатома относительно простой задачей, то определение очагов микроинвазии аденокарциномы в полипах с дисплазией низкой и высокой степени является достаточно сложной задачей, для решения которой можно использовать алгоритмы поддержки приятия решений, основанные на глубоком обучении. Ключевой задачей таких алгоритмов представляется распознавание слоев стенки желудка и толстой кишки на WSI-изображениях, а именно: собственной пластинки слизистой оболочки, мышечной оболочки слизистой оболочки, подслизистой основы, собственного мышечного слоя, субсерозных отделов, серозной оболочки и прилегающих к ней участков жировой ткани. Второй этап заключается в адаптировании алгоритмов глубокого обучения для сегментации нормальных слизистых желез, трубчатых и папиллярных структур с дисплазией низкой и высокой степени, зубчатых просветов с дисплазией низкой и высокой степени и очагов инвазивной аденокарциномы.
К недостаткам представленной оригинальной методики разметки и аннотации изображений относится небольшое количество классов, что приводит к недостаточной детализации классов. В частности, класс AT, объединяющий три слоя стенки желудка (участки подслизистой основы, собственный мышечный слой желудка и субсерозные отделы), впоследствии при дальнейшем развитии математического алгоритма должен быть разделен на отдельные классы, однако это можно сделать только после того, как алгоритм с высокой степенью эффективности будет обучен распознавать мышечную пластинку.
Заключение
В ходе исследования разработана оригинальная методика разметки и аннотирования изображений применительно к распознаванию слоев стенки желудка и опухолей желудка, включающая 5 классов (типов тканей). Такая методика эффективна на начальных этапах обучения математических алгоритмов и позволяет обеспечить точную детекцию мышечной пластинки, а также эффективную дифференцировку зон опухолевой ткани от прилежащих зон неизмененной собственной пластинки слизистой оболочки. Дальнейшие этапы разработки реального диагностического алгоритма в целях автоматического определения глубины инвазии рака желудка требуют корректировки и развития представленной методики разметки и аннотации.
Работа выполнена за счет средств гранта Российского фонда фундаментальных исследований (РФФИ) №19-57-80014 (БРИКС_т) и с использованием оборудования, приобретенного по программе развития МГУ им. М.В. Ломоносова.
Участие авторов:
Концепция и дизайн исследования — И.А. Михайлов, А.В. Хвостиков, А.С. Крылов
Сбор и обработка материала — А.В. Хвостиков, И.А. Михайлов
Математическая обработка данных — А.В. Хвостиков
Написание текста — И.А. Михайлов
Редактирование — А.С. Крылов
1 https://imaging.cs.msu.ru/en/research/histology/path-dt-msu