Список сокращений
МРТ — магнитно-резонансная томография
МО — машинное обучение
ACC — accuracy, точность
BACC — balanced accuracy, сбалансированная точность
F1 — F-мера
N — объем выборки
PR AUC — area under precision-recall curve, площадь под кривой «полнота—точность»
ROC AUC — area under receiver operating characteristic curve, площадь под кривой «рабочая характеристика приемника»
SENS — sensitivity, чувствительность
SPEC — specificity, специфичность
Введение
Неинвазивная, безопасная и точная диагностика опухолей головного мозга — основная цель развития методов лучевых исследований в современной нейроонкологии. Благодаря широкому спектру модальностей нейровизуализации можно получать сведения о макро- и микроструктуре, кровотоке, метаболизме и функциях нормальных и патологических тканей мозга. Однако сегодня потенциал развития лучевой диагностики не только в новых технологиях получения изображений, но и в совершенствовании способов извлечения из них полезной информации. В частности, исследования последних лет, направленные на поиск лучевых коррелятов молекулярных биомаркеров опухолей и оценку степени злокачественности новообразований по медицинским изображениям, продемонстрировали значительные успехи [1, 3, 5, 7, 10—12]. Работы разных коллективов подтверждают базовую гипотезу о взаимосвязи лучевого фенотипа опухоли с ее генотипом. Технологической основной таких исследований является расчет большого числа разнообразных количественных признаков изображений, специфично характеризующих опухоль того или иного класса. Такая методология количественного анализа медицинских изображений получила название «радиомика» [13]. Однако отсутствие стандартизированных подходов, гарантирующих высокое качество и воспроизводимость результатов этих исследований, пока не позволяет создать на их основе эффективные инструменты, применимые в клинике.
Один из наиболее сложных технических вопросов связан с определением области изображения, в пределах которой проводится расчет количественных характеристик. Как правило, зону интереса определяют по визуальным границам патологического образования. Аналогичный подход доминирует и в отношении глиом головного мозга. Однако в исследованиях глиальных опухолей, для которых границы визуального сигнала не совпадают с истинной распространенностью опухолевых клеток, данная методика определения зоны интереса является достаточно спорной.
Мы предлагаем стандартизированный подход к определению зон интереса для расчета количественных характеристик магнитно-резонансных (МР) изображений глиальных опухолей головного мозга с помощью радиомики и проверяем гипотезу об эффективности такого подхода для дифференциальной диагностики глиом разного гистологического типа по данным МР-томографии (МРТ).
Материал и методы
В анализ включали данные МРТ пациентов ФГАУ «Национальный медицинский исследовательский центр нейрохирургии им. акад. Н.Н. Бурденко» Минздрава России (НМИЦ нейрохирургии им. акад. Н.Н. Бурденко) в соответствии с приведенными ниже критериями:
— возраст 18 лет и старше;
— гистологическая и молекулярная верификация одного из четырех типов глиальных опухолей (классификация Всемирной организации здравоохранения 2016 г.): олигодендроглиома, анапластическая олигодендроглиома, анапластическая астроцитома, глиобластома;
— локализация опухоли в больших полушариях мозга;
— МРТ головного мозга проведено до нейрохирургического лечения;
— ткань опухоли сохранена для возможности дальнейшего анализа в биобанке НМИЦ нейрохирургии им. акад. Н.Н. Бурденко.
МР-исследования проводили на магнитно-резонансном томографе МРТ GE Signa HDxt 3.0T с использованием 8-канальной головной катушки. У всех пациентов протокол исследования включал следующие последовательности:
— T1 — с параметрами TR=600 мс, ТЕ=12,6 мс, с толщиной среза 5 мм и межсрезовым интервалом 1 мм;
— Sag T1 Cube с контрастным усилением — с параметрами TR=600 мс, ТЕ=12,962 мс, с толщиной среза 1,2 мм;
— T2 — с параметрами TR=6714 мс, ТЕ=104,16 мс, с толщиной среза 5 мм и межсрезовым интервалом 1 мм;
— T2-FLAIR — с параметрами TR=9500 мс, ТЕ=122,04 мс, с толщиной среза 5 мм и межсрезовым интервалом 1 мм.
Первичные данные с МР-томографа получали в формате DICOM. С помощью утилиты SintStrip программного обеспечения FreeSurfer вычисляли «маску мозговой ткани», после чего удаляли из изображений внемозговые структуры. Далее изображения в разных модальностях корегистрировали относительно серии T1 с контрастом с помощью программы ANTs, выполняя аффинные преобразования. Корегистрированные изображения сохраняли в формате NIfTI. Далее с помощью программного обеспечения ITK-SNAP для всех изображений во всех модальностях устанавливали 4 стандартизированные объемные (3D) «сферические» зоны интереса — по 356 вокселей (46,93 мм3) каждая:
1) в зоне накопления контрастного препарата (для опухолей, накапливающих контрастный препарат);
2) в зоне отека-инфильтрации (зоне повышения МР-сигнала в режимах T2 и T2-FLAIR; при наличии зоны контрастного усиления — за пределами этой зоны);
3) в зоне, смежной с отеком-инфильтрацией (участке визуально неизмененного мозгового вещества, который непосредственно прилежит к зоне повышения МР-сигнала в режимах T2 и T2-FLAIR);
4) в белом веществе (семиовальном центре) контрлатерального полушария «зеркально» объемному образованию.
В соответствии с основной гипотезой исследования о существовании устойчивых диагностически значимых МР-паттернов, наблюдаемых в произвольном ограниченном объеме ткани, в настоящем исследовании установку стандартизированных зон интереса не «привязывали» к анатомическим образованиям.
На рис. 1 в качестве примера представлен аксиальный срез всех зон интереса на одном уровне для разных МР-последовательностей.
Рис. 1. «Плоский» срез 4 стандартизированных объемных зон интереса в разных магнитно-резонансных последовательностях.
а — Т1 с контрастным усилением; б — Т1; в — Т2; г — Т2-FLAIR.
Все вычисления и анализ данных были выполнены с использованием языка программирования R (версия 4.2.2) в единой среде разработки RStudio Server (версия 2022.07.0+548) на суперкомпьютере NVIDIA DGX A100. Далее для удобства будем называть количественные характеристики изображений, рассчитанные с помощью методов радиомики, количественными характеристиками или параметрами. Количественные характеристики были рассчитаны внутри каждой объемной зоны интереса с использованием библиотеки RIA [2]. Исходные значения вокселей в зонах интереса были равновероятно дискретизированы по 2, 4, 8, 16, 32, 64 и 128 интервалам. Рассчитывали статистики первого порядка, характеристики матриц совместной встречаемости уровней серого (gray level co-occurence matrix, GLCM), матриц длин пробегов уровней серого (gray level run-length matix, GLRLM) и статистики, основанные на геометрических свойствах изображений (в частности, фрактальные размерности; полный список рассчитанных количественных характеристик представлен в работе [4]).
Далее с помощью методов машинного обучения по рассчитанным количественным характеристикам обучали математические модели определять гистологический класс опухоли. Решали несколько вариантов задач классификации:
— определение одного из нескольких гистологических классов (задача мультиклассовой классификации);
— определение строго заданного гистологического класса против объединения оставшихся классов (бинарная классификация);
— определение одного класса из пары возможных гистологических классов (бинарная классификация).
В рамках данного исследования мы использовали простой двухэтапный процесс отбора количественных характеристик в модели. На первом этапе с помощью непараметрических критериев определяли характеристики, различавшиеся между прогнозируемыми классами с наибольшей статистической значимостью (p<0,05). На втором этапе для каждой зоны интереса при каждой модальности отбирали N наиболее значимых характеристик. Выбирали значение N отдельно для каждой задачи классификации таким образом, чтобы качество обучения моделей было наиболее высоким. Отобранные характеристики нормализовали (отнимали среднее значение и делили на стандартное отклонение).
Один эксперимент машинного обучения представлял собой решение одной из четырех базовых задач (см. выше) с конкретными значениями целевой переменной (вариантами градаций гистологического типа опухоли, которые варьировали для задач 2—3), конкретным набором количественных характеристик, отобранных под базовую задачу, и несколькими моделями. Машинное обучение — это настройка математической модели на имеющихся примерах «количественные характеристики МР-изображений — гистологический тип опухоли». Для прогнозирования гистологического типа в каждом эксперименте из подготовленного набора данных выделяли обучающие (70%) и тестовые (30%) подмножества. Исключение составил эксперимент с мультиклассовой классификацией, в котором доли обучающей и тестовой выборки были равны 80 и 20% соответственно. Обучение моделей проводили на обучающей выборке. В каждом эксперименте были использованы модели машинного обучения 4 типов: случайный лес (random forest, RF), логистическая регрессия (logistic regression, LR), метод опорных векторов (support vector machine, SVM) и «базовая модель» без признаков (featureless model, FM), которая всегда возвращала значение преобладающего класса целевой переменной. Специальную настройку гиперпараметров моделей в рамках настоящей работы не проводили.
В соответствии с возможными значениями целевой переменной для первой задачи (мультиклассовая классификация) рассматривали единственный вариант эксперимента, для второй задачи бинарной классификации — 4 варианта (в каждом определяли один из четырех гистологических типов против остальных трех), для третьей задачи бинарной классификации — 6 вариантов (6 возможных парных комбинаций из 4 гистологических типов). Учитывая выраженную несбалансированность выборки по гистологическому типу, классам присваивали веса с учетом их встречаемости в исходной выборке. Каждый эксперимент машинного обучения был повторен 100 раз со случайным формированием обучающего и тестового подмножества, после чего метрики качества моделей усредняли для получения более объективных оценок. В качестве метрик качества оценивали точность (ACC), сбалансированную точность (balanced accuracy, BACC), чувствительность (sensitivity, SENS), специфичность (specificity, SPEC), F-меру (F-score, F1), площадь под ROC-кривой (area under «receiver operating characteristic» curve, ROC AUC), площадь под кривой «полнота—точность» (area under «precision—recall» curve, PR AUC). Метрики качества рассчитывали только на тестовых выборках. Процедуры машинного обучения были реализованы с использованием библиотек из семейства mlr3 на языке программирования R.
В исследование были включены 83 пациента (39 (47%) мужчин и 44 (53%) женщины, средний возраст 50,6±14,9 года) с диагнозами: глиобластома (n=48 (57,8%), анапластическая астроцитома (n=17 (20,5%), анапластическая олигодендроглиома (n=10 (12,1%), олигодендроглиома (n=8 (9,6%). У всех пациентов визуализировали выраженный отек вокруг опухоли, по данным МРТ, в режимах T1, T2 и T2-FLAIR. В исследуемой выборке изображений накопление контрастного вещества в режиме T1 наблюдалось только у 63 пациентов, у 20 яркого контрастирования глиомы не было. Для сохранения максимального размера выборки (n=83) в настоящем исследовании количественные характеристики, рассчитанные в проекции зон накопления контрастного вещества, не использовали для машинного обучения.
Результаты
Для расчета количественных характеристик каждую зону интереса вписывали в 3D-массив размером 8×10×9 с непустыми значениями 356 вокселей. На рис. 2 показан пример плоского среза объемной зоны интереса, первично установленной на участок накопления контрастного вещества в T1 и спроецированной на корегистрированные изображения T1 без контраста, T2 и T2-FLAIR. Как видно на рис. 2, распределение МР-сигнала на срезе одной и той же зоны интереса в разных модальностях неидентично.
Рис. 2. Срез стандартизированной объемной зоны интереса (установленной в зоне накопления контрастного вещества) в проекции разных магнитно-резонансных модальностей.
а — T1 с контрастным усилением; б — Т1; в — Т2; г — Т2-FLAIR. Показано распределение сигнала до дискретизации.
Для каждого пациента были рассчитаны 127616 количественных характеристик по всем зонам интереса во всех модальностях. Из них 10715 характеристик статистически значимо (p<0,05) различались для МР-изображений опухолей разных гистологических типов. Наибольшие статистически значимые различия наблюдали для характеристик, рассчитанных в контрлатеральном полушарии (38,8%), в зоне, смежной с областью отека-инфильтрации (30,9%), и в области отека-инфильтрации (20,9%). При этом характеристики в зоне накопления контрастного вещества статистически значимо различались реже (9,4%). «Дифференцирующая» способность режимов МРТ распределилась так: 34,5% значимо различных характеристик были рассчитаны по модальности T2; 25,7% — по изображениям Т2-FLAIR; 21,3% — в режиме T1 с контрастным усилением; 18,5% — в режиме T1.
Машинное обучение в варианте мультиклассовой классификации показало точность = 81,6% (сбалансированную точность = 74,6%). В табл. 1 представлены наибольшие значения метрик качества дифференцирования одного гистологического класса от остальных трех, усредненные по результатам 100 экспериментов. Для каждой области интереса в каждом режиме МРТ мы отобрали по 200 наиболее значимых количественных характеристик и использовали их для обучения. Сбалансированная точность в решении этой задачи составила 94% и выше, наилучший результат был получен с помощью метода опорных векторов.
Таблица 1. Средние метрики качества дифференцирования одного гистологического класса от остальных трех с помощью моделей машинного обучения, %
Тип опухоли | Метод МО | BACC | ACC | SENS | SPEC | F1 | ROC AUC | PR AUC |
Олигодендроглиома | SVM | 99,3 | 99,5 | 99,0 | 99,5 | 97,4 | 99,0 | 99,0 |
Анапластическая олигодендроглиома | SVM | 97,1 | 97,1 | 97,0 | 97,1 | 90,5 | 99,8 | 98,9 |
Анапластическая астроцитома | SVM | 96,6 | 97,5 | 95,2 | 98,1 | 94,0 | 99,9 | 99,6 |
Глиобластома | SVM | 94,0 | 94,1 | 93,2 | 94,8 | 93,3 | 97,5 | 97,7 |
Примечание. Здесь и в табл. 2: МО — машинное обучение; N — объем выборки; BACC — сбалансированная точность; ACC — точность; SENS — чувствительность; SPEC — специфичность; F1 — F-мера; ROC AUC — площадь под ROC-кривой; PR — площадь под кривой precision-recall.
В табл. 2 показаны усредненные метрики качества идентификации одного из двух гистологических типов глиом по количественным характеристикам МР-изображений. Для машинного обучения в каждой области интереса по каждой модальности МРТ были отобраны 30 наиболее значимых характеристик. Максимальная точность таких решений составила в эксперименте более 92% при наибольшей эффективности модели типа «случайный лес» и метода опорных векторов.
Таблица 2. Средние метрики качества дифференцирования пар гистологических классов с помощью машинного обучения
Тип опухоли | Метод МО | N | BACC, % | ACC, % | SENS, % | SPEC, % | F1, % | ROC AUC, % | PR AUC, % |
Анапластическая олигодендроглиома/олигодендроглиома | RF | 18 | 99,8 | 99,9 | 99,7 | 100,0 | 99,8 | 100,0 | 100,0 |
Глиобластома/олигодендроглиома | SVM | 56 | 98,9 | 98,9 | 99,0 | 98,8 | 96,7 | 100,0 | 100,0 |
Анапластическая астроцитома/олигодендроглиома | RF | 25 | 97,3 | 97,9 | 95,7 | 98,9 | 96,2 | 99,7 | 99,3 |
Глиобластома/анапластическая олигодендроглиома | SVM | 58 | 96,7 | 96,9 | 96,5 | 96,9 | 92,1 | 99,8 | 99,1 |
Анапластическая астроцитома/анапластическая олигодендроглиома | SVM | 27 | 92,7 | 92,1 | 95,0 | 90,4 | 89,9 | 100,0 | 100,0 |
Глиобластома/анапластическая астроцитома | SVM | 65 | 93,1 | 93,8 | 91,7 | 94,5 | 88,9 | 99,1 | 98,1 |
Обсуждение
Создание надежных методов неинвазивной «биопсии» опухолей головного мозга — стратегически важная задача, решение которой приведет к существенному повышению безопасности оказания медицинской помощи пациентам с опухолями нервной системы. Благодаря широкому спектру методов лучевой диагностики, применяемых в нейроонкологии, а также большому количеству числовых данных, которые можно с помощью этих методов получить, поиск новых клинически значимых биомаркеров видится перспективным именно в нейровизуализации. Минимальная ожидаемая польза таких технологий — в расширении информативности лучевой диагностики и поддержке принятия врачебных решений на самых ранних этапах выявления опухоли.
Работы по определению лучевых коррелятов молекулярных маркеров глиальных опухолей и степени их злокачественности являются современным трендом в нейроонкологии. Успешно проведены также исследования по дифференциальной диагностике глиальных опухолей с другими биологическими феноменами (например, постлучевой псевдопрогрессией или воспалением). При этом работы, в которых в качестве целевой переменной рассматривали гистологические типы глиом, немногочисленны.
Так, в исследовании P. Barge и соавт. на животных была продемонстрирована точность мультиклассовой классификации олигодендроглиом, астроцитом и олигоастроцитом до 79% [6]. Авторы рассчитывали количественные характеристики в контрастируемом и неконтрастируемом сегментах опухоли, а также в зоне перитуморального отека. Наилучшей «дифференцирующей способностью» обладала зона перитуморального отека на изображениях T1 и неконтрастируемые сегменты опухоли на изображениях T2. Так же как и в нашем исследовании, для машинного обучения не использовали характеристики, рассчитанные в зоне накопления контраста. Наиболее эффективной моделью был метод опорных векторов. Работа P. Barge и соавт. подтвердила рациональность использования разных сегментов опухоли для расчета количественных характеристик в задаче классификации изображений глиом по гистологическому типу.
Y. Zhao и соавт. дифференцировали пилоцитарную астроцитому и кистозную олигодендроглиому с помощью количественных параметров, рассчитанных по изображениям T1, T1 с контрастом, T2 и T2-FLAIR, и машинного обучения. В этом исследовании модель градиентного бустинга над деревьями решений продемонстрировала точность классификации 96,5% [8].
В исследовании H. Luo и соавт. гистологические типы опухолей удалось классифицировать по характеристикам, полученным с помощью нейронной сети, со средней точностью 83,9% [15]. В целом в нашем исследовании точность решений превысила аналогичные показатели других авторов. Однако, учитывая небольшой объем выборки, нельзя исключить коррекцию метрик качества при накоплении большего количества данных.
В подавляющем большинстве работ по радиомике при глиомах головного мозга авторы стремились исследовать всю зону опухолевого сигнала. Однако такой подход не кажется нам перспективным. С одной стороны, при попытке захвата видимого изображения опухоли в зону интереса попадает очень гетерогенный сигнал. С другой стороны, в отдельных случаях области интереса имеют разный размер. Но самое главное — задача нахождения границ глиальной опухоли по данным МРТ не имеет очевидного решения. В таких работах авторы прилагают значительные усилия к оконтуриванию опухоли, используют автосегментацию с помощью нейронных сетей или разметку, согласованную несколькими экспертами. Однако ни один из подходов не может гарантировать «правильность» сегментации, поскольку границы глиальных опухолей условны.
В настоящей работе мы предлагаем альтернативный подход к выбору зон интереса, позволяющий стандартизировать процесс сегментации в исследованиях количественных характеристик изображений. Наш метод опирается на аналогию с процессом биопсии опухолевой ткани: для исследования гистологического и молекулярного типа глиомы нейроморфолог получает лишь небольшой ее фрагмент и не имеет доступ ко всему объему. Если верна гипотеза о том, что биологический тип опухоли отражается в ее лучевом фенотипе, то и отдельные фрагменты опухоли должны содержать специфичные паттерны. Таким образом, мы предлагаем фиксировать размер и объем зон интереса и устанавливать такие стандартизированные зоны в пределах отдельных визуально определяемых компонентов опухоли и/или перитуморального пространства. Такой подход легче осуществим и вызывает меньше разногласий, чем попытка поиска «точной границы» опухоли. Таким образом реализуется идея «цифровой биопсии»: исследование фрагмента опухоли по данным нейровизуализации. Преимущество «цифровой биопсии» в том, что ее можно провести во многих стандартизированных зонах интереса за считанные минуты. К тому же размер зоны может быть относительно небольшим. Определение минимального достаточного объема зоны интереса для «цифровой биопсии» — предмет будущих исследований.
В нашей пилотной работе показаны высокие метрики качества моделей машинного обучения, разделяющих МР-изображения глиом исследованных гистологических классов. Точность моделей машинного обучения оказалась сопоставимой и даже превысила точность решений других авторов, по данным литературы, однако для полноценной цифровой биопсии опухоли она недостаточно высока.
Ограничения проведенного нами исследования связаны с небольшим объемом выборки, малым числом и выраженным дисбалансом гистологических классов, использованием небольшого набора моделей и другими методологическими аспектами.
Имеется также ряд технических ограничений. Поскольку данные были получены с одного 3T МР-томографа, мы не применяли дополнительные методы предобработки данных. Мы выполняли нормализацию количественных характеристик изображений перед разделением на обучающую и тестовую выборку, что могло теоретически приводить к некоторой «утечке информации» между этими выборками. Мы не задействовали арсенал методов для более скрупулезного отбора характеристик в модели (кластерный анализ, классические методы уменьшения размерности, алгоритмы на основе машинного обучения), поэтому количество и комбинации количественных характеристик, использованные в моделях, вероятно, неоптимальны. В силу небольшого объема выборки мы не смогли включить в модели характеристики, рассчитанные по зоне накопления контраста. Также мы не проводили настройку гиперпараметров моделей, что, вероятно, могло бы повысить качество обучения. В будущих исследованиях необходимо провести качественный отбор признаков и их интерпретацию для лучшего понимания принципов дифференциальной диагностики глиом по медицинским изображениям, а также подобрать оптимальные настройки параметров машинного обучения. По мере накопления данных мы видим целесообразность применения методов глубокого обучения для решения подобных задач [9, 14].
Наконец, в будущих работах целесообразно проверить предложенный нами подход для дифференцирования молекулярных подтипов опухоли, а также для анализа выживаемости, рисков и ответа на лечение пациентов с глиальными опухолями. Нельзя исключить, что количественные характеристики лучевого фенотипа опухоли могут иметь самостоятельное прогностическое значение.
Заключение
Предложенный подход к стандартизации зон интереса по размеру и объему продемонстрировал высокую эффективность для дифференциальной диагностики олигодендроглиомы, анапластической олигодендроглиомы, анапластической астроцитомы и глиобластомы по МР-изображениям. Имеются основания использовать и развивать данную методологию в дальнейших исследованиях.
Работа поддержана грантом Министерства науки и высшего образования Российской Федерации 075-15-2021-1343.
Участие авторов:
Концепция и дизайн исследования — Данилов Г.В., Баталов А.И. Пронин И.Н.
Сбор и обработка материала — Шевченко А.М., Конакова Т.А., Погосбекян Э.Л., С.В. Шугай, Цуканова Т.В., Данилов Г.В.
Написание текста — Данилов Г.В., Агрба С.Б.
Редактирование — Баталов А.И., Вихрова Н.Б., Захарова Н.Е., Пронин И.Н.
Авторы заявляют об отсутствии конфликта интересов.