Атеросклероз — сложное мультифакториальное заболевание, развивающееся в результате взаимодействия факторов наследственности и внешней среды. Заболевания, вызванные атеросклерозом и его осложнениями, занимают главенствующие позиции в структуре сердечно-сосудистой смертности в РФ [1].
Наследственность определяет до 50% в развитии данного заболевания [2, 3]. В то же время многочисленные исследования геномных ассоциаций (GWAS) последних двух десятилетий, направленные на выявление генетических маркеров атеросклероза, в полной мере не увенчались успехом. Проведено более 100 исследований геномных ассоциаций, выявлено несколько сотен однонуклеотидных полиморфизмов (SNP), ассоциированных с риском развития атеросклероза и его осложнений [4, 5]. Однако в то время как идентификация такого количества значимых вариантов была несомненным достижением GWAS-исследований, полученные данные имеют несущественное значение для предсказания индивидуального риска развития заболевания или для применения их в клинической практике [6]. Во-первых, для подавляющего большинства выявленных с помощью GWAS вариантов полиморфизмов полученный эффект был слишком мал, с отношением шансов, не превышающим 1,1—1,4 [7]. Во-вторых, несмотря на то что в развитии атеросклероза вклад наследственности достигает 50%, лишь в очень малой степени феномен наследственности может быть объяснен полученными результатами [8]. В-третьих, интерпретация даже этих данных остается затруднительной, так как большинство выявленных вариантов генетических полиморфизмов имеют неочевидное влияние на функцию белков, клеток и организма в целом [9]. Связано это с тем, что ассоциированные SNP в основном расположены в некодирующей части (40%) либо в интронах (40%) и не сцеплены с несинонимичными заменами, которые могли бы повлиять на функцию генного продукта.
В последнее время активно обсуждается роль редких мутаций в развитии распространенных заболеваний. Так, W. Bodmer и C. Bonilla [10] при анализе результатов исследований геномных ассоциаций касательно болезней, распространенных в популяции, показали, что более редкие мутации имели большее отношение шансов развития заболевания, чем генетические варианты с большей аллельной частотой. В связи с этим было выдвинуто предположение, что бо`льшая часть генетической основы заболеваний, распространенных в популяции, обусловлена редкими и преимущественно функционально значимыми генетическими вариантами, которые вносят большой вклад в развитие заболевания у конкретных пациентов. Очевидно, что наибольшее влияние будут оказывать варианты, имеющие очевидные функциональные последствия [11]. Это вовсе не означает, что частые варианты не играют роли в развитии распространенных заболеваний. Наоборот, исследования некоторых заболеваний с менделевским типом наследования показывают, что частые варианты могут играть ключевую роль в модификации эффекта более редких и высокопенетрантных мутаций, влияющих на степень риска заболевания. Разумно предположить, что это также может оказаться верным и для заболеваний, распространенных в популяции [11].
Изучение редких аллелей в рамках целого генома стало реальным только в последние несколько лет, благодаря развитию новых технологий секвенирования. Начиная с 2007 г. стала использоваться новая технология генетических исследований — массовое параллельное секвенирование, позволяющее определять несколько миллиардов нуклеотидов последовательности за 1 запуск прибора (т.е. секвенировать весь геном конкретного человека за 1 запуск прибора), при этом значительно снизилась стоимость этого исследования. В последнее время наметилась тенденция к секвенированию областей генома, содержащих только кодирующие участки генов, — экзоны (экзом — совокупность всех экзонов у одного организма). Данный подход еще более удешевляет исследования и позволяет упростить процесс биоинформационного анализа. Секвенирование экзомов человека в настоящее время — это современный инструмент как индивидуального обследования пациентов, так и эпидемиологических исследований [12, 13].
В данной статье представлены дизайн исследования АТЕРОГЕН-ИВАНОВО, алгоритмы биоинформационного анализа и результаты обследования 58 пациентов пилотной группы первого в России крупного исследования с применением метода секвенирования экзомов.
Материал и методы
Общая характеристика исследования
АТЕРОГЕН-ИВАНОВО — первое в России крупное исследование с применением метода секвенирования экзомов, направленное на изучение особенностей развития и характера течения атеросклероза различной локализации (коронарных, каротидных и феморальных артерий), в рамках когортного проспективного исследования. Исследование проводится на выборке пациентов, полученной в ходе многоцентрового наблюдательного исследования «Эпидемиология Сердечно-Сосудистых Заболеваний в регионах Российской Федерации» (ЭССЕ-РФ), выполняемого на территории Ивановской области (ЭССЕ-Иваново) [14]. Для проведения исследования выбрано Иваново как часть Ивановской области, представляющей собой, по данным Независимого института социальной политики [15], пример мононационального субъекта Российской Федерации, что позволяет ожидать генетическую однородность популяции, включенной в эпидемиологическое исследование ЭССЕ-Иваново.
Разработка стратегии, методологии и протокола исследования, мониторинг исследования, проведение лабораторных и генетических исследований, а также анализ полученных данных выполнены в ФГБУ «Государственный научно-исследовательский центр профилактической медицины» Минздрава РФ. В качестве регионального центра, осуществляющего непосредственно организацию и проведение всех протокольных мероприятий исследования, выступает ОБУЗ «Кардиологический диспансер» Иваново.
Дизайн исследования
Исследование имеет проспективный характер с формированием когорт по принципу «случай—контроль» (рис. 1). Общая продолжительность наблюдения составляет 5 лет.
Год начала исследования — 2012.
Организация исследования
1-й этап исследования включает формирование выборки и верификацию диагнозов.
В исследование включаются пациенты из эпидемиологического исследования ЭССЕ-Иваново, в связи с этим каждому из них уже присвоен идентификационный номер, на каждого имеется информационно-регистрационная карта (данные внесены в электронную базу данных), подробная информация о которой представлена в публикации, посвященной исследованию ЭССЕ-РФ [14].
Информационно-регистрационная карта заполнялась на основании стандартного опроса и физикального обследования (измерение АД, проведение антропометрических измерений: рост, масса тела, окружность талии).
У всех пациентов произведен забор крови для лабораторных анализов, в том числе генетического (полноэкзомного секвенирования и эпигенетического исследования). Определение лабораторных тестов проводилось в крови (цельная кровь, сыворотка, плазма): общий холестерин, холестерин ЛПВП, триглицериды, глюкоза, креатинин, мочевая кислота, липопротеин (а), аполипопротеин А1, аполипопротеин В, вчС-реактивный белок, фибриноген, инсулин, NT-ProBNP, ТТГ. Биообразцы подготавливались согласно соответствующим инструкциям, изложенным в публикации, посвященной исследованию ЭССЕ-РФ [14], и пересылались с помощью специализированной транспортной фирмы в ГНИЦ ПМ для проведения анализов.
Пациенты, отобранные в соответствии с 1-м шагом формирования выборки (отбор лиц с предварительно установленным диагнозом), вызывались путем телефонного обзвона для верификации диагнозов ИБС, острое нарушение мозгового кровообращения (ОНМК), а также проведения дуплексного сканирования артерий.
Всем пациентам старше 40 лет из общего числа исследуемых (1883 человека) проводилось дуплексное сканирование каротидных и феморальных артерий.
Всем пациентам, у которых лодыжечно-плечевой индекс (ЛПИ)<0,9 и ЛПИ>1,3, проводилось дуплексное сканирование артерий нижних конечностей на всем их протяжении.
В обязательном порядке осуществлялось ксерокопирование медицинских документов, подтверждающих диагноз (выписки из историй болезни, протоколы нагрузочных тестов, электрокардиограммы и т.д.). Результаты дуплексного сканирования артерий сохранялись на ультразвуковом приборе в DICOM-формате, затем переписывались с прибора на переносное электронное устройство хранения информации. Протоколы дуплексного сканирования артерий хранятся в бумажном и электронном виде.
2-й этап исследования представляет собой непосредственно проспективное исследование.
С целью оценки первичных конечных точек ежегодно (в 2014, 2015, 2016, 2017 гг.) будет проводиться телефонный обзвон и/или поквартирный обход всех представителей исследуемой когорты, а также анализ данных ЗАГСа и поликлиник, к которым прикреплены данные пациенты.
Формы регистрации конечных точек представлены в протоколе исследования ЭССЕ-Иваново. В обязательном порядке осуществляется ксерокопирование медицинских документов, подтверждающих факт наличия конечной точки (выписки из историй болезни, протоколы нагрузочных тестов, электрокардиограммы и т.д.).
Вторичные конечные точки будут оцениваться в 2015 и 2018 гг.
На 3-м этапе в 2018 г. будет проводиться вызов всех участников исследования с помощью телефонного обзвона и/или поквартирного обхода. Будут оцениваться первичные конечные точки, возникшие в течение последнего года.
В рамках этапа на каждого исследуемого заполняется информационно-регистрационная карта на основании стандартного опроса и физикального обследования (измерение АД, проведение антропометрических измерений: рост, масса тела, окружность талии). Проводится верификация новых случаев ИБС и ОНМК согласно алгоритмам, используемым на 1-м этапе исследования.
Всем пациентам будет проведено дуплексное сканирование каротидных и феморальных артерий. Всем пациентам без ранее установленного атеросклероза артерий нижних конечностей (с атеросклеротическими бляшками — АСБ, стенозирующими просвет артерии менее чем на 50%) будет проведена оценка ЛПИ. Дуплексное сканирование артерий нижних конечностей на всем их протяжении будет проведено всем пациентам с выявленным на 1-м этапе исследования значимым атеросклерозом артерий нижних конечностей, а также пациентам с уровнем ЛПИ <0,9 и ЛПИ>1,3, выявленным на 3-м этапе исследования.
Всем участникам будет проведено лабораторное исследование крови: общий холестерин, холестерин ЛПВП, триглицериды, глюкоза, креатинин, мочевая кислота, липопротеин (а), аполипопротеин А1, аполипопротеин В, вчС-реактивный белок, фибриноген.
Конечные точки
Первичные конечные точки:
— смерть (по любой причине); смерть от сердечно-сосудистых заболеваний;
— новые сердечно-сосудистые события (ИБС, ИМ, ОНМК ишемической этиологии);
— реваскуляризация коронарных артерий;
— реваскуляризация каротидных артерий;
— реваскуляризация артерий нижних конечностей.
Вторичные конечные точки:
— изменение максимального стеноза каротидных артерий;
— изменение ультразвуковых показателей атеросклеротической нагруженности каротидных артерий (суммарный стеноз каротидных артерий, количество АСБ, plaque score);
— изменение максимального стеноза феморальных артерий;
— изменение максимального стеноза артерий нижних конечностей;
— изменение ультразвуковых показателей атеросклеротической нагруженности феморальных артерий (суммарный стеноз каротидных артерий, количество АСБ, plaque score);
— изменение ТИМср каротидных артерий;
— изменение ТИМмакс каротидных артерий;
— изменение ТИМпрогр каротидных артерий;
— изменение ТИМср феморальных артерий;
— изменение ТИМмакс феморальных артерий;
— изменение ТИМпрогр феморальных артерий;
— изменение лабораторных показателей (липидного спектра);
— суммарный риск по шкале SCORE для лиц с низким и средним риском.
Формирование выборки
Выборка для исследования сформирована из числа лиц, участвующих в эпидемиологическом исследовании ЭССЕ-Иваново (1883 человека) [14]. Из общего числа обследуемых, вошедших в исследование ЭССЕ-Иваново, были отобраны 1327 человек в возрасте 40 лет и старше, каждому из которых проводилось дуплексное сканирование каротидных и феморальных артерий и которые составили когорту для оценки характера течения атеросклеротического процесса.
Формирование выборки, в которой помимо оценки характера течения атеросклероза проводится генетическое исследование, осуществлялось в несколько шагов.
1-й шаг. Отбор лиц с предварительно установленным диагнозом
На основании данных информационно-регистрационной карты исследования ЭССЕ-Иваново из 1883 обследуемых была отобрана группа лиц с подозрением на наличие ИБС, перенесенного ишемического ОНМК и пациенты с вероятным атеросклерозом артерий нижних конечностей.
Предварительный диагноз ИБС устанавливался на основании:
а) кардиологического опросника ВОЗ (1982) в модификации Russian LRC Rose; и/или
б) положительного ответа на вопрос: «Говорил ли Вам когда-нибудь врач, что у Вас имеется ИБС?»; и/или
в) положительного ответа на вопрос: «Говорил ли Вам когда-нибудь врач, что у Вас имеется инфаркт миокарда?».
Предварительный диагноз ОНМК устанавливался на основании положительного ответа на вопрос: «Говорил ли Вам когда-нибудь врач, что у Вас имеется ОНМК (инсульт)?»
Предварительный диагноз атеросклероза артерий нижних конечностей устанавливался на основании значений показателя ЛПИ (1327 человек). При ЛПИ<0,9 вероятность наличия АСБ в артериях нижних конечностей расценивалась как высокая со стенозом просвета артерий более чем 50%. При ЛПИ>1,3 диагноз стенозирующего атеросклероза артерий нижних конечностей расценивался как вероятный.
Кроме того, на основании данных информационно-регистрационной карты из общего числа обследуемых (1327 человек) были отобраны некурящие лица с низким и умеренным сердечно-сосудистым риском, согласно шкале SCORE (SCORE<5%).
2-й шаг. Верификация диагнозов
Верификация диагнозов ИБС и ОНМК у лиц с предварительно установленными диагнозами ИБС и ОНМК проводилась согласно современным рекомендациям [16—18].
Всем пациентам, у которых ЛПИ<0,9 и ЛПИ>1,3, проводилось дуплексное сканирование артерий нижних конечностей. Пациенты с АСБ, стенозирующими просвет артерий нижних конечностей на 50% и более, включались в группу пациентов с атеросклерозом артерий нижних конечностей.
Диагноз выраженного атеросклероза каротидных артерий устанавливался лицам с АСБ, сужающими просвет каротидных артерий на 50% и более, согласно результатам дуплексного сканирования каротидных артерий. Всем отобранным пациентам с низким и умеренным сердечно-сосудистым риском, согласно шкале SCORE (некурящим), проводилось дуплексное сканирование сонных артерий с целью отбора лиц с АСБ каротидных артерий, сужающих просвет на 25—49%.
В результате формировались следующие группы пациентов:
— больные с подтвержденными диагнозами ИБС и ОНМК;
— пациенты с выраженным каротидным атеросклерозом (стеноз более 50%);
— пациенты с выраженным атеросклерозом артерий нижних конечностей (стеноз более 50%);
— пациенты с низким и средним риском по шкале SCORE с умеренно выраженным атеросклерозом каротидных и/или феморальных артерий (с АСБ, суживающим просвет артерий на 25—49%), некурящие.
3-й шаг. Формирование контрольных групп
С помощью компьютерной программы, разработанной программистами ГНИЦ ПМ, в системе MS Access для поиска представителей контрольной группы из 1883 обследуемых пациентов проводился поиск лиц, сопоставимых по возрасту (максимальная дельта 5 лет), уровню ОХС (максимальная дельта 0,5 ммоль/л) и идентичных по полу, статусу курения, наличию АГ, СД.
Для больных с выраженным атеросклерозом (стеноз более 50%) группу контроля составили пациенты без ИБС, ОНМК, с АСБ, стенозирующими просвет каротидных артерий и артерий нижних конечностей менее чем на 50%.
Для некурящих пациентов с низким и средним риском по шкале SCORE с АСБ, стенозирующими просвет артерий на 25—49%, группу контроля составили пациенты с АСБ, стенозирующими просвет артерий менее чем на 25%.
Таким образом, были сформированы контрольные группы, соответствующие по численности группам лиц, относящихся к категории «случай» (см. рис. 1).
Всем пациентам основной и контрольной групп проводилось генетическое исследование методом секвенирования экзомов.
Этические вопросы
Клиническое исследование проводится в соответствии с этическими положениями Хельсинской декларации и Национальным стандартом Российской Федерации «Надлежащая клиническая практика (Good Clinical Practice)» ГОСТ Р52379-2005.
Генетическое исследование
Кровь пациентов собирали в пробирки с ЭДТА в качестве антикоагулянта. Хранили при температуре –20 оС. Геномную ДНК выделяли из 1 мл крови с помощью QIAamp DNA Blood Mini Kit («Qiagen», США). 4 мкг геномной ДНК фрагментировали ультразвуком до размера 100—250 п.н. с помощью Covaris S220. У полученных фрагментов были удалены выступающие 5’- и 3’-концы, а также фосфорилированы 5’-нуклеотиды. Фрагменты длиной 100—250 п.н. были очищены с помощью магнитных частиц Agencourt AMPure XP («Beckman Coulter», США). Количество ДНК измеряли на флюориметре Qubit 2.0 («Life Technologies», США). Распределение размеров фрагментов ДНК проверялось с помощью Agilent HS Bioanalyzer Chip («Agilent», США). C помощью термостабильной полимеразы к 3’-концам фрагментов ДНК добавлялся dA, затем проводилось лигирование P1- и P2-адапторов. После лигирования библиотеку амплифицировали с помощью ПЦР с праймерами Library PCR primer 1 и 2 (6—8 циклов), затем ДНК снова очищали с помощью магнитных частиц Agencourt AMPure XP («Beckman Coulter», США).
Экзомное обогащение производили с помощью гибридизации 500 нг смеси из 4 библиотек с биотинилированными пробами TargetSeq Exome Enrichment System («Life Technologies», США). Специфичность гибридизации достигалась благодаря использованию блокирующих последовательностей ДНК — набора фрагментов человеческой ДНК Cot 1 и фрагментов ДНК, специфических к адапторам библиотеки. Гибридизация проводилась в течение 72 ч при температуре 47 °С. Гибридизованные последовательности очищались с помощью магнитных частиц Dynabeads M-270 («Life Technologies», США) со стрептавидином путем инкубации при температуре 47 °С в течение 45 мин. Затем магнитные частицы промывались растворами А, B и С, после чего производилась амплификация гибридизованных фрагментов ДНК с помощью ПЦР с Library PCR primer 1 и 2 (10 циклов). Обогащенную экзомную библиотеку ДНК очищали с помощью магнитных частиц Agencourt AMPure XP («Beckman Coulter», США). Количество ДНК измеряли на флюориметре Qubit 2.0 («Life Technologies», США). Распределение размеров фрагментов ДНК проверялось с помощью Agilent HS Bioanalyzer Chip («Agilent», США). Все манипуляции производили в соответствии с протоколом.
4,2 нг смеси 8 экзомных библиотек брали для одной эмульсионной ПЦР. Эмульсионная ПЦР проводилась с помощью SOLiDEZ Bead Systems («Life Technologies», США) согласно протоколу. Магнитные частицы, на которых успешно прошла реакция амплификации, отбирали путем связывания магнитных частиц P2 и селектировали в 60% глицероле с помощью Applied Biosystems SOLiD EZ Bead Enricher («Life Technologies», США), согласно протоколу. Отобранные магнитные частицы подвергали обработке ультразвуком с помощью Covaris S220 и затем проводили модификацию 3’-концов с помощью терминальной трансферазы в течение 2 ч при температуре 37 °С на ротаторе для последующего их прикрепления к стеклу ячейки для секвенирования. После 3’-модификации магнитные частицы промывали в буфере TEX.
Для нанесения на ячейку для секвенирования магнитные частицы подвергали обработке ультразвуком с помощью Covaris S220, промывали в буфере для нанесения. Подготовленные магнитные частицы разводили в необходимом объеме буфера для нанесения и наносили в ячейку для секвенирования, которую затем инкубировали при температуре 37 °С 1 ч. Секвенирование образцов проводили на приборе SOLiD 5500XL («Life Technologies», США), согласно протоколу. Все реактивы, для которых не указан производитель, поставлялись компанией «Life Technologies», США.
Биоинформационный анализ
Для пилотного исследования и отработки параметров биоинформационного анализа из всей группы пациентов были отобраны 58 человек, для которых и проводился биоинформационный анализ. Номера пациентов отбирались случайным образом с применением метода конвертов.
Анализ наследственности в данной работе построен на методе секвенирования экзомов с применением набора TargetSeq Exome Enrichment System («Life Technologies», США). Размер изучаемого экзома при данном методе составлял 37 270 000 нуклеотидов, 195 282 экзонов от 19 911 генов. По завершении процесса секвенирования вся информация находилась в первичных файлах, содержащих набор фрагментов прочтений всего экзома с расширением .xsq — XSQ-файлы. Биоинформационный анализ включал в себя несколько стадий (рис. 2).
1. Предварительная обработка прочтений
а. Конвертация форматов
Каждый XSQ-файл конвертировался в 2 файла — CSFASTA (файл содержит информацию о последовательности каждого прочтения) и QUAL (файл содержит информацию о качестве каждого нуклеотида в последовательности каждого прочтения). Конвертация осуществлялась специально разработанным для этого компанией «Life Technologies» пакетом исполняемых команд.
б. Исправление ошибок секвенирования
Одна из проблем картирования состоит в том, что исследуемая последовательность генома обычно не абсолютно тождественна референсному геному. Происходит это отчасти из-за вариабельности генома (наличие однонуклеотидных полиморфизмов, вставок, делеций) и/или из-за ошибок секвенирования. Перед картированием рекомендуется по возможности исправить в прочтениях ошибки секвенирования. Для прочтений, полученных с помощью секвенатора SOLiD, разработан специальный пакет — SAET [19], позволяющий устранить часть ошибок секвенирования прочтений и в дальнейшем увеличить количество прочтений, картирующихся на референсный геном. Применение этого пакета остается на усмотрение исследователя.
Нами проводился сравнительный анализ картирования прочтений без применения к ним пакета SAET и с SAET на один и тот же референсный геном. В результате оказалось, что в среднем применение пакета SAET увеличивает количество картируемых на референсный геном ридов на 6%. Таким образом, было решено включить применение пакета SAET в алгоритм обработки данных.
2. Картирование прочтений на референсный геном
Из полученного набора прочтений восстанавливалась полная нуклеотидная последовательность экзома пациента. В качестве референса использовалась последовательность генома человека версии hg19 [20]. Картирование прочтений на референсный геном осуществлялось с помощью программы Bowtie [21]. Bowtie — открытая программа, оптимизированная по скорости и расходу памяти. Программа выбрана для анализа по причине того, что она хорошо справляется с выравниванием относительно коротких прочтений (получаемая длина прочтений на секвенаторе SOLiD 5500XL в данном исследовании составляла 75 пар оснований) на большие геномы.
3. Оценка секвенирования
Для оценки глубины покрытия каждого нуклеотида был сформирован целевой фрагмент генома. В данной работе целевым фрагментом генома является экзом человека, а именно те участки, которые обогащаются при подготовке образцов к секвенированию с помощью набора реагентов для обогащения экзома человека. Как заявлено производителем, используемый набор реагентов позволяет секвенировать 19 911 генов, 195 282 экзона или 37 270 000 нуклеотидов. На практике суммарная длина прочитанных фрагментов генома всегда несколько больше за счет множественных перекрытий прочтений. Поэтому было решено расширить границы экзонов на 10 нуклеотидов с каждой стороны для выявления мутаций, влияющих на сплайсинг. В результате получилась последовательность из 41 174 465 нуклеотидов, которая для этой работы стала целевым фрагментом генома человека. Для получения файла, содержащего информацию о покрытии каждого нуклеотида из вышеописанной последовательности, использовались ресурсы пакета BEDTools [22]. Полученный файл обрабатывался с помощью программы R [23].
4. Поиск однонуклеотидных замен
Поиск однонуклеотидных замен выполнялся с помощью набора программ VCFtools [24].
5. Поиск инсерций и делеций (InDel)
Для поиска коротких инсерций и делеций (не более 20 нуклеотидов) в экзоме пациентов использовался пакет программ LifeScope [25].
6. Анализ найденных замен
Найденные замены аннотировались с помощью программы ANNOVAR. ANNOVAR — это программа, позволяющая сравнивать список однонуклеотидных замен, полученных по результатам секвенирования фрагмента или полного генома человека, с рядом специализированных баз данных [26]. Ниже приведены описания используемых в нашей работе баз данных, включенных в ANNOVAR.
dbSNP — база данных, содержащая описание однонуклеотидных полиморфизмов, коротких вставок и делеций, коротких тандемных повторов [27].
Reference Sequence (RefSeq) — аннотация замен по этой базе данных позволяет понять, что в кодирующую или некодирующую часть генома попала замена, если в кодирующую, то в какой ген попала замена, в какой экзон этого гена и привела ли замена к смене аминокислоты или к сдвигу рамки считывания [28].
SIFT — база данных, позволяющая спрогнозировать вред несинонимичных мутаций для последовательности белка, кодированной геном, содержащим замену [29].
PolyPhen — база данных, позволяющая спрогнозировать силу вреда замены [29].
Программа ANNOVAR была выбрана для аннотации замен, так как она позволяет автоматически сопоставить найденные замены с большим количеством существующих на данный момент разного рода специфических баз данных.
Статистический анализ
Для статистической обработки полученных результатов использовали пакет программы Statistica 6.0. При нормальном распределении данные представлены как среднее ± стандартное отклонение, в остальных случаях данные представлены в виде медианы и 25—75-го процентилей; р<0,05 рассматривали как статистически достоверное.
Результаты
В ходе данной работы в целях отработки параметров биоинформационного анализа нами анализировались данные секвенирования экзомов 58 пациентов, составивших пилотную группу. Номера пациентов, вошедших в пилотную группу, были отобраны случайным образом из общей группы пациентов.
Клиническая характеристика пациентов пилотной группы
Клиническая характеристика 58 пациентов пилотной группы представлена в табл. 1.
В целом можно отметить, что в пилотную группу в большей степени попали пациенты основной группы исследования. Этим объясняется высокая частота ИБС и ОНМК в пилотной группе.
Результаты генетического обследования пациентов пилотной группы
Результаты глубины покрытия для выборки из 58 пациентов представлены в табл. 2.
Характеристика мутаций, найденных в исследуемой группе, представлена в табл. 3.
По данным аннотации прошедших фильтр-замен, с помощью ресурсов ANNOVAR были получены следующие результаты. Всего в экзонах выявлено в среднем 6759 SNP и 392 InDel. Большинство SNP 6405 (94%) описаны в базе dbSNP, т.е. у каждого пациента определялось порядка 6% новых, никем не описанных мутаций. Конечно, большинство из них не являются вредными или сколько бы то ни было значимыми. Однако как раз среди них могут находиться мутации, ответственные за возникновение или вносящие существенный вклад в развитие заболевания. Около 37% SNP являются несинонимичными, т.е. приводящими к замене аминокислоты в последовательности будущего белка. По результатам SIFT, около 5% замен являются потенциально вредными. По данным PolyPhen, замены, которые с большей вероятностью приводят к повреждению структуры белка, составляли 4,6% (probably damaging) и с меньшей вероятностью — 3,2% (possibly damaging). У каждого пациента в среднем выявлялось 32 SNP, приводящих к образованию STOP-кодона и 3 SNP, приводящих к потере STOP-кодона.
Обсуждение
АТЕРОГЕН-ИВАНОВО — это первое в России крупное исследование с применением метода секвенирования экзомов, направленное на изучение особенностей развития и прогрессирования атеросклероза различной локализации (коронарных, каротидных и феморальных артерий), в рамках когортного проспективного исследования. В данной статье мы представили дизайн исследования, алгоритмы биоинформационного анализа и результаты секвенирования экзомов 58 пациентов пилотной группы.
Секвенирование кодирующей части генома — экзома, в отличие от полногеномного секвенирования, позволяет получать данные только для наиболее значимых мутаций и в большей степени подходит для применения в исследованиях, направленных на поиск новых генетических маркеров развития мультифакториальных заболеваний. Это обусловлено, во-первых, тем, что мутации в некодирующих областях генома с наименьшей вероятностью могут вызывать развитие заболеваний. Миссенс-мутации в кодирующих областях — наиболее частый известный тип мутаций, обусловливающих фенотип [30]. Таким образом, сконцентрировав свои усилия на выявлении мутаций экзома, исследователи повышают эффективность диагностики наиболее вероятных мутаций-кандидатов, при этом не затрагивая значительное количество доброкачественных мутаций. Во-вторых, если влияние изменений в белок-кодирующих областях генома на транскрипцию и трансляцию можно спрогнозировать, эффекты мутаций в некодирующих областях на сегодняшний день представляют огромные затруднения для интерпретации [31]. В-третьих, снижение числа мутаций, участвующих в статистическом анализе снижает значение p-value для статистически достоверных различий между группами. Так, в работе K. Shianna и соавт. (2010) сравнивалась частота различных классов генетических вариантов в 10 случаях контроля и 10 случаях заболевания. Было выявлено 383 913 вариантов (SNP и InDel), присутствовавших в 2 случаях заболевания и отсутствующих в случаях контроля. Исследование такого большого количества вариантов потребовало бы значения p<1,3·10-7 для того, чтобы говорить о достоверно значимой ассоциации. Однако, если исследование ограничить только вариантами, содержащимися в кодирующей части, это число упадет до 2354, что потребует значения p<2,2·10-5. Если же среди оставшихся вариантов выбрать только те, которые оказывают значимое влияние на функцию белка, требуемое значение p падает до менее 3,3·10-4 [32].
В нашем исследовании у каждого пациента в среднем выявлялось более 40 000 различных мутаций. В процессе биоинформационного анализа их число в значительной степени уменьшилось. Всего в кодирующей белки последовательности генома — экзоме выявлялось в среднем 6759 SNP и 392 InDel. При этом около 6% мутаций ранее не были описаны в базах данных. Количество выявляемых мутаций сильно зависит от метода секвенирования, глубины покрытия, параметров биоинформационного анализа. Однако в целом полученные нами данные совпадают с результатами других исследователей, так, процент новых SNP варьирует от 2,8 до 11,5% [33—35]. Большинство обнаруженных нами мутаций не являются вредными или клинически значимыми, только около 10% мутаций в экзоме пациентов пилотной группы могут рассматриваться в качестве потенциальных маркеров развития атеросклероза.
Заключение
В данной работе мы представили дизайн исследования АТЕРОГЕН-ИВАНОВО, алгоритмы биоинформационного анализа и результаты секвенирования экзомов пациентов пилотной группы. Проведенный анализ результатов секвенирования 58 экзомов был направлен на отработку параметров биоинформационного анализа и определения числа потенциально значимых генетических маркеров. Показано, что около 10% мутаций в экзомах пациентов пилотной группы могут рассматриваться в качестве потенциальных маркеров развития атеросклероза.