Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Шаров Т.Н.

ФКУЗ «Волгоградский научно-исследовательский противочумный институт» Федеральной службы по надзору в сфере защиты прав потребителей и благополучия человека

Викторов Д.В.

ФКУЗ «Волгоградский научно-исследовательский противочумный институт» Роспотребнадзора

Топорков А.В.

ФКУЗ «Волгоградский научно-исследовательский противочумный институт» Федеральной службы по надзору в сфере защиты прав потребителей и благополучия человека

Протеомный анализ в микробиологии

Авторы:

Шаров Т.Н., Викторов Д.В., Топорков А.В.

Подробнее об авторах

Просмотров: 667

Загрузок: 4

Как цитировать:

Шаров Т.Н., Викторов Д.В., Топорков А.В. Протеомный анализ в микробиологии. Молекулярная генетика, микробиология и вирусология. 2023;41(1):3‑9.
Sharov TN, Viktorov DV, Toporkov AV. Proteomic analysis in microbiology. Molecular Genetics, Microbiology and Virology. 2023;41(1):3‑9. (In Russ.)
https://doi.org/10.17116/molgen2023410113

Рекомендуем статьи по данной теме:
Ска­ни­ру­ющая элек­трон­ная мик­рос­ко­пия с суп­ра­ви­таль­ным кон­трас­ти­ро­ва­ни­ем в экспресс-ди­аг­нос­ти­ке за­бо­ле­ва­ний гла­за и при­да­точ­но­го ап­па­ра­та. Вес­тник оф­таль­мо­ло­гии. 2023;(3):136-144
Связь бел­ков ос­трой фа­зы вос­па­ле­ния в кро­ви с на­ли­чи­ем нес­та­биль­ных ате­рос­кле­ро­ти­чес­ких бля­шек при ко­ро­нар­ном ате­рос­кле­ро­зе. Про­фи­лак­ти­чес­кая ме­ди­ци­на. 2023;(8):76-81

Белки — это важнейший класс молекул, задействованных почти во всех биологических процессах. Они отвечают за формирование структурной основы в клетках, участвуют в метаболизме, трансмембранной и внутриклеточной передаче сигналов, регуляции генов, синтезе белка, переносе растворенных веществ, задействованы в системе иммунитета. В целом можно сказать, что функционально белки в клетках живых организмов более разнообразны, чем другие биополимеры — полисахариды и ДНК. Соответственно, нарушения структуры, активности или функций белков во многих случаях отражает наличие нарушений в нормальной работе организма. В медицине понимание таких нарушений необходимо для выявления факторов происходящего или потенциально возможного патологического процесса. В исследовательской и клинической микробиологии исследование протеомного состава — один из важных этапов систематизации таксономического положения видов, анализа патогенности микроорганизма и оценка эффективности терапии вызываемого им заболевания. Ранние подходы в протеомном анализе, как правило, были сосредоточены на изучении одного либо нескольких белков. Однако развитие методов масс-спектрометрии и инструментальной базы в целом позволяют анализировать комплексные смеси белков, рассматривая системные изменения в биологических процессах [1, 2]. Прогресс в экспериментальных аспектах протеомики привел к необходимости создания различных методов биоинформатического анализа, помогающих обнаружить взаимосвязь между механизмами регуляции белка на молекулярном уровне и их последующим проявлением: развитием заболевания, изменением фенотипа и т.д. [3, 4].

Биоинформационный анализ белков и пептидов имеет несколько разных определений, но все они включают в себя совокупность методов интерпретации и систематизации данных об их составе, структуре и функциях. Инструментом для получения данных, которые затем анализируют методами биоинформатики, в подавляющем большинстве случаев является масс-спектрометрия. Этот метод можно назвать базой для подавляющего большинства протеомных исследований в сферах медицинской, санитарной или исследовательской микробиологии. Современные масс-анализаторы переводят сигналы от ионов исследуемых веществ в массивы данных, вследствие чего необходимо проводить вычислительные операции с большими объемами информации. При этом использование масс-спектрометрии в протеомике — это применение не одной универсальной стратегии для решения всех задач, а скорее использование набора методов, каждый из которых имеет сильные стороны, подходящие для конкретных запросов.

Независимо от области применения результатов (медицина, научные исследования, диагностика), протеомный анализ в микробиологии — это почти всегда либо определение структурно-функциональных характеристик белков и пептидов, либо количественное измерение содержания белков в клетках или тканях. В эти категории входит множество задач: идентификация маркеров инфекционных заболеваний, поиск белковых антигенов и кандидатов на роль вакцин, определение механизмов патогенности, влияние целого ряда факторов на экспрессию белков в макро- или микроорганизмах.

Идентификация пептидов и белков является наиболее широко распространенным видом исследований в протеомике. Применительно к микробиологии это чаще всего требуется для поиска факторов патогенности, регуляторов клеточного цикла или метаболизма возбудителя того или иного заболевания. Задача алгоритмов поиска состоит в переводе сигналов масс-спектра в последовательность аминокислот путем соотнесения полученных результатов с уже имеющейся базой данных с помощью различных математических алгоритмов. После чего на основании информации о пептидных последовательностях программа строит предположения об исходном строении белков с учетом возможных вариантов альтернативного сплайсинга или наличия гомологичных последовательностей аминокислот. Решить данную задачу можно либо путем сравнения с существующими базами данных пептидных фрагментов [5—7], либо проведя «de novo-секвенирование» [8—10].

В первом случае сопоставление идет с базой данных референтных последовательностей, созданной in silico как из экспериментально выделенных и охарактеризованных белков, так и из гипотетических белковых молекул, чья структура предсказана на основе данных геномных последовательностей. В процессе сравнения для каждого пептидного фрагмента рассчитывается собственный числовой показатель совпадения с известной последовательностью из базы данных (peptide spectrum match, PSM). Референтный пептид с наивысшим PSM используется в дальнейшем в качестве наиболее вероятного результата идентификации.

Конкретным примером применения описанного метода является поиск дифференциации между близкородственными видами бактерий: Escherichia coli и Shigella или Bacillus cereus и Bacillus anthracis [11].

Одна из важнейших задач при использовании для идентификации баз данных является совершенствование существующих алгоритмов сравнения, поскольку именно от их эффективности зависит результат всего метода. Наиболее широко применяемые алгоритмы в поисковых машинах основаны либо на оценке корреляции соотношения масса/заряд у исследуемых и референтных молекул (SEQUEST) [12], либо на определении того, с какой вероятностью те или иные пептиды могут в совокупности сформировать функциональный белок (MASCOT) [13]. При выборе любого алгоритма для получения корректного результата важное значение имеет вариативность молекулярной массы предполагаемого белка-предшественника, а также диапазон допустимой разницы между теоретически рассчитанной и реальной массой подвергнутых ионизации пептидных фрагментов. Слишком большие значения данных показателей могут привести к ложноположительному результату идентификации, а слишком маленькие — к исключению вероятного белка-кандидата из списка кандидатов. Эмпирический подбор этих параметров — долгий и малоэффективный процесс, поскольку они будут различаться для каждого идентифицируемого белка. Поэтому для оптимизации этих показателей применяют дополнительное программное обеспечение (MSQuant, DtaRefinery), чьи расчеты основаны на использовании регрессионной модели, а также повторной калибровке в процессе анализа и учете посттрансляционных модификаций [14]. Следует отметить, что чем больше белков и их возможных фрагментов есть в базах данных, тем проще и быстрее подбор условий для поиска новых [15].

Также следует отметить, что для правильной идентификации белка важен и способ расчета показателя PSM, поскольку это один из основных параметров поиска, и во многих случаях для упрощения работы в интерфейсе программы отображается только он. Как правило, в каждой поисковой системе (Mascot, MaxQuant, Sequence, PepHMM) используется свой алгоритм оптимизации PSM, основанный на той или иной вероятностной модели, но общим моментом для всех является сравнение экспериментальных данных с фрагментами белков из баз данных. В некоторых случаях белки с большей или меньшей степенью точности идентифицируются с помощью какой-то одной из перечисленных систем, например, из-за наличия конкретных посттрансляционных модификаций. Поэтому нельзя выделить какую-либо систему в качестве универсальной и наиболее эффективной.

Описанные выше параметры служат для повышения точности идентификации путем увеличения количества возможных положительных белков-кандидатов, однако существует также показатель ложных совпадений (false discovery rate, FDR), который учитывается при вычислениях [16, 17]. Обычно при анализе программа задает некий минимальный FDR, при котором из поиска автоматически исключаются все кандидаты со значениями FDR выбранного. Изначально в большинстве поисковых систем данный этап был полностью автоматический и не требовал участия оператора [18]. Однако пополнение баз данных белковых фрагментов со временем привело к значительному увеличению времени обработки экспериментальных данных. Для решения этой проблемы были предложены различные решения, основанные на модели логистической регрессии. Наиболее эффективным из них было использование мультипликативной модели вычислений, когда анализ каждого отдельного белкового фрагмента позволял сокращать используемый объем базы данных для следующего пептида. В итоге немного увеличились требуемые для вычисления мощности, однако значительно сократилось конечное время поиска нужного белка [19].

Несмотря на широкое применение сравнительной идентификации, в исследовательской практике могут возникнуть проблемы с определением структуры новых белков, для которых нет референтных последовательностей в базах данных. Также в большинстве программ, анализирующих белки, не учитываются их возможные посттрансляционные модификации (ПТМ) [20]. Существующие инструменты, которые определяют ПТМ, имеют лишь предсказательный характер [21]. Однако метод масс-спектрометрии позволяет не только быстро идентифицировать в исследуемом образце структуру десятков и сотен уже известных пептидов и белков, но и устанавливать структуру ранее не исследованных полипептидов. Такой вариант анализа получил название de novo-секвенирование. Метод успешно применяют для определения аминокислотной последовательности неизученных белков, например, антител, пептидов с посттрансляционными модификациями, а также белков возбудителя заболевания в биологической жидкости без выделения чистой культуры. Примером может служить выявление белков Klebsiella pneumoniae при инфекции мочевыводящих путей [22]. В методе используются сложные вычисления для вывода последовательности пептида непосредственно из экспериментальных спектров тандемных масс-спектрометров. В ходе исследования молекула фрагментируется вдоль пептидной цепи, и полученные в результате ионы измеряются для получения спектров. Иногда также используют несколько разных протеаз, осуществляющих расщепление белка на отличающиеся для каждого эксперимента фрагменты. Подобный анализ в целом возможен по причине того, что существует только 3 возможных способа разрыва связей в цепочках аминокислот, с образованием 6 типов ионов фрагментации. Таким образом, при секвенировании de novo последовательность пептидов определяется исключительно на основании информации о массе фрагментов и особенностях метода фрагментации. Для этого используются математические алгоритмы анализа с использованием графовых вероятностных моделей [23—25], при этом все операции выполняет специализированное программное обеспечение (PepNovo, NovoHMM, UniNovo). Поскольку сопоставления с известными последовательностями в данном методе провести невозможно, все расчеты значительно сложнее, чем в методах сравнительной идентификации. Вследствие этого для получения максимально точного результата задействуют нейросети, а также механизмы динамического программирования [26].

Еще один подход — комбинация секвенирования de novo и сопоставления масс-спектра с базой данных с помощью специализированного программного обеспечения и параллельных алгоритмов обработки (InsPecT, DirecTag) [27]. Такой подход используется реже перечисленных выше методов из-за большей трудоемкости и длительности для случаев, когда необходима особенно высокая точность или существует значительное количество возможных вариантов того, какой белок мог быть ферментирован на исследуемые фрагменты [28].

На сегодняшний день известно более двухсот вариантов посттрансляционной модификации белков (ПТМ) и, по некоторым данным, ей подвергается подавляющее большинство белков [29]. Идентификация ПТМ — также одна из важных задач протеомного анализа, решить которую позволяет метод масс-спектрометрии. В микробиологии этот метод применяется для исследований ПТМ белков таких клинически значимых микроорганизмов, как Mycobacterium tuberculosis или различных видов Streptomyces [30]. Понимание работы их метаболических или мембранных белков в перспективе позволит усовершенствовать методы лечения вызываемых ими заболеваний. Простой поиск путем перебора вариантов ПТМ из базы данных занимает достаточно много времени, поэтому используют специализированные программы, такие как ModifiComb, PTMselect и G-PTM-D, зачастую интегрированные в поисковую систему [31, 32]. Наиболее эффективный и точный метод определения конкретных модификаций в каждом случае — это сочетание de novo-секвенирования и использования информации из геномных и транскриптомных баз данных. Подобная стратегия поиска выделяется некоторыми исследователями в отдельный подраздел «протеогеномики» [33].

Необходимо сказать, что независимо от способа статистической обработки масс-спектральных данных фрагментов следующим шагом всегда является реконструкция пептидных последовательностей в исходный белок. Чем длиннее последовательность фрагмента, тем она более уникальна, и, соответственно, тем проще «собрать» из нее искомый белок. И наоборот, чем меньше конечные продукты расщепления белка, тем менее надежные показатели идентификации будут у всех белков-кандидатов. По аналогии с нуклеотидными цепочками подобные короткие пептиды можно назвать вырожденными. Как и в случае с секвенированием de novo, для «сборки» подходящего белка используют вероятностную модель, логистическую регрессию или же иерархический метод [34].

Помимо определения аминокислотной последовательности смеси белков, другой частой задачей, стоящей перед исследователями, является определение сравнительного содержания белка, т.е. количественный протеомный анализ. Как и в случае с идентификацией, развитию программного обеспечения в этом направлении биоинформатики поспособствовало значительное увеличение объема выходных данных современных масс-анализаторов и хромато-масс-спектрометров. На сегодняшний день нет единого стандарта построения модели экспрессии белков, и существует множество коммерческих программ, в которых задействованы разные алгоритмы. Однако большинство экспериментальных способов количественного определения белков в исследуемых образцах делятся на две категории: методы с использованием меток (изотопные), и методы без меток (безизотопные).

Суть методов с использованием метки — снижение общей сложности смеси путем предварительного разделения с помощью аффинной хроматографии. Метки на исследуемые белки могут быть прикреплены как in vitro, так и in vivo, в клеточной культуре, после чего смесь белков подвергают ферментативному расщеплению для получения меченых пептидов. Затем их поэтапно разделяют с помощью жидкостной хроматографии и анализируют с помощью тандемной масс-спектрометрии. Сама метка представляет собой синтетическую молекулу из активной группы, ковалентно присоединяющейся к боковой цепи аминокислоты (обычно к цистеину), собственно метки для аффинного разделения (обычно короткая последовательность аминокислот), и связующей, или линкерной, части между ними [35]. Также введение метки возможно и после этапа хроматографического разделения. В таком случае в качестве меток часто используют химические группы, имеющие одинаковую исходную массу, но распадающиеся на различные фрагменты в ходе ионизации. Данный метод иначе называют изобарическим мечением. В результате анализа получают данные о той или иной фракции изучаемой пептидной смеси. Для проведения вычислительных операций с фракциями смеси также требуется специализированное программное обеспечение (MaxQuant, P-view, X-press) [36], с помощью которого количественное содержание белка рассчитывается на основе сравнения профилей элюирования меченых пептидов с данными о масс-спектрах отельных фракций. Область применения метода количественной оценки содержания белка с использованием меток чрезвычайно широка — от онкологических исследований до изучения наследственных патологий. В микробиологии этот метод наиболее часто встречается при сравнении протеомов мутантных штаммов и штаммов дикого типа с целью выяснения роли того или иного белка в патогенезе микрооганизма [37].

При количественном определении содержания без использования меток исследуемые белки обычно разделяют с помощью метода жидкостной хроматографии (как правило анионообменной). После фракционирования на хроматографической колонке смесь белков разделяется на компоненты, которые попадают в масс-анализатор. Программное обеспечение для обработки хроматограмм позволяет сверить полученные пики с уже известными, тем самым провести точную качественную и количественную идентификацию разделяемого вещества. Одновременно с этим регистрируется масс-спектр, дающий представление о химическом составе отдельных фракций. Сравнительное содержание белков в исследуемой пробе высчитывается с помощью таких программ, как Mascot Distiller, MaxQuant [38, 39]. Распространенной проблемой данного метода является недостаточная воспроизводимость результатов. Это объясняется отличиями в концентрациях среди фракций при повторении анализа даже одной и той же смеси. Это приводит к соответствующим различиям в показателях интенсивности пиков на масс-спектрах разделенных пептидных фракций и в итоге затрудняет сопоставление результатов разных серий экспериментов [40]. Для решения этой проблемы используют методы нормализации интенсивности, такие как учет общего количества ионов (total ion count, TIC) [41]. Кроме того, в качестве альтернативного метода количественного определения можно использовать последовательный подсчет масс-спектров, когда общий массив ионных сигналов смеси пептидов разделяют и регистрируют по частям, а затем суммируют в единую картину. Это достаточно трудоемкий процесс, однако некоторое поисковые системы (Mascot) позволяют проводить его в автоматическом режиме. Для корректировки учета пептидов достаточно часто используют системы машинного обучения, которые позволяют классифицировать пики как информативные либо как шумовые, и поочередно исключать последние из анализа [42]. Примером использования метода количественной оценки содержания белка без метки является определение дифференциальной экспрессии белков в норме и при различных стрессовых воздействиях на микроорганизм [43].

Масс-спектрометрическая визуализация (Imaging mass spectrometry, IMS) позволяет обнаруживать локализацию и перераспределение белков в различных типах биологических тканей, представляя результат в виде визуальной модели [44]. Чаще всего метод IMS применяется в клинической диагностике онкологических процессов и нейродегенеративных заболеваний при поиске и оценке содержания биомаркеров патологического процесса в срезах тканей. Однако такой метод можно успешно использовать для изучения белков и пептидов в микробиологических исследованиях, например, при анализе распределения лекарственных средств [45] или обмена химическими веществами между микроорганизмами [46]. Наиболее популярные способы ионизации в IMS включают лазерную десорбцию/ионизацию (LDI), матричную (MALDI), времяпролетную масс-спектрометрию вторичных ионов (TOF-SIMS) и десорбцию с помощью электроспрея (DESI) [47]. Для улучшения общего качества полученных изображений из IMS, а также создания более информативных и точных карт сегментации существуют различные алгоритмы обработки изображений. Наиболее эффективные и часто применяемые — это кластеризация пикселей на основе их сходства с формированием пространственной карты (пространственно-ориентированная кластеризация), или метод шумоподавления, при котором в изображение переводятся только сигналы с интенсивностью выше определенного порога. Также существуют программные пакеты, которые могут выполнять сглаживание сигналов, автоматическую калибровку и нормализацию данных [48].

Заключение

Протеомный анализ на основе данных масс-спектрометрического метода показывает себя как практически универсальный метод исследования свойств, структуры и количества белков в клетках как прокариот, так и эукариот. В свою очередь биоинформатические методы обработки данных стремительно развиваются и совершенствуются как ответ на увеличение объема и сложности информации, регистрируемой с помощью масс-анализаторов. Наблюдается очевидная тенденция к автоматизации некоторых этапов анализа, а также упрощению интерпретации результатов экспериментов и появлению более удобного и понятного интерфейса приборов и поисковых систем. Это в конечном счете приводит к распространению использования биоинформационного анализа не только среди узкопрофильных специалистов, но и среди всех исследователей, в чью задачу входит изучение протеома. Также стоит отметить активное использование данных геномики и транскриптомики и других смежных областей для анализа белков и пептидов.

В целом можно сказать, что интеграция математических методов и алгоритмов обработки данных в лабораторный анализ позволила значительно расширить возможности изучения протеома изучаемого организма. Актуальность совершенствования этого раздела биоинформатики несомненна как для области фундаментальной или прикладной науки, так и для рутинной лабораторной практики или медицины.

Авторы заявляют об отсутствии конфликта интересов.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail



Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.