Введение
Скрининг носительства определяется как вид медицинского обследования для выявления наличия или отсутствия статуса носителя рецессивного расстройства у пары или человека, которые априори не имеют повышенного риска быть носителем на основании их или их партнеров личной или семейной истории болезней [1]. Носителем считается человек с одним патогенным вариантом нуклеотидной последовательности гена, связанного с рецессивным (аутосомным или сцепленным с Х-хромосомой) заболеванием [2]. Скрининг на носительство, предлагаемый до или во время беременности, определяет риск рождения ребенка с рецессивным наследственным заболеванием у пары, тем самым облегчая репродуктивный выбор для тех, кто подвержен высокому риску рождения ребенка с серьезным генетическим заболеванием [1]. Первые скрининговые программы показали свою эффективность в снижении числа новых случаев заболеваний. Они были нацелены на определенные группы высокого риска на основании прежде всего этнической принадлежности и проводились для относительно частых заболеваний, ассоциированных с выраженными проявлениями заболевания и сниженной ожидаемой продолжительностью жизни, например таких как α-талассемия и β-талассемия, болезнь Тея—Сакса, муковисцидоз [3—5].
С развитием генетических технологий появилась возможность одновременно проводить скрининг на носительство большого числа заболеваний без значительного увеличения стоимости; такой скрининг получил название расширенного (expanded carrier screening) [6]. В ряде исследований показано, что расширенный скрининг более эффективен для выявления пар из группы риска по сравнению со скринингом, основанным на этнической принадлежности [7].
В 2021 г. Американская коллегия медицинской генетики и геномики (American College of Medical Genetics and Genomics — ACMG) опубликовала новые рекомендации по скринингу носительства [8]. В рутинном порядке рекомендуется предлагать беременным и планирующим беременность пациентам скрининг заболеваний с тяжестью не ниже умеренной по классификации, предложенной G.A. Lazarin и соавт. [9], с частотой заболевания не ниже 1/40 000 для X-сцепленных и частотой носительства не ниже 1/200 (0,5%) для аутосомно-рецессивных заболеваний. Такая частота носительства должна быть установлена хотя бы в одной этнической группе, составляющей не менее 1% населения. В соответствии с этими критериями отобрано 113 генов; 86 аутосомных генов отобрано на основании данных о частоте патогенных вариантов в экзомных данных gnomAD, 11 — на основании других источников [8]. J. Schmidtke и M. Krawczak подсчитали, что при общей распространенности аутосомно-рецессивных заболеваний, равной 1,6%, с учетом приведенных частот носительства рекомендованный скрининг, вероятно, позволит выявить в популяции более половины всех пар носителей рецессивных заболеваний [10].
Для большинства аутосомных и X-сцепленных рецессивных заболеваний, включенных в рекомендации, оценка частот носительства патогенных и вероятно патогенных вариантов в российской популяции не проводилась.
Цель исследования — оценить суммарные частоты носительства патогенных и вероятно патогенных вариантов в генах, рекомендованных ACMG для скрининга носительства аутосомных и X-сцепленных рецессивных заболеваний, в российской выборке и сравнить полученные частоты с данными для европейской популяции.
Материал и методы
Выборка
В исследование включены пациенты ФГБУ «НМИЦ ТПМ» Минздрава России с различными нозологиями, у которых отсутствовали изучаемые моногенные заболевания [11, 12]. Образцы крови получены из коллекции биобанка ФГБУ «НМИЦ ТПМ» [13]. После исключения участников по результатам анализа родства и анализа с помощью метода главных компонент (principal component analysis — PCA) итоговая однородная популяционная выборка составила 1126 неродственных участников. Доля мужчин в выборке — 48,6% (n=1031). Оценка клинических данных участников при включении в исследование не проводилась.
Секвенирование следующего поколения
Геномная ДНК из образцов цельной крови выделена с помощью набора QIAamp DNA Blood Mini Kit (Qiagen GmbH, Германия) с измерением концентрации на флуориметре Qubit 4.0 (Thermo Fisher Scientific Inc., США) или спектрофотометре NanoDrop OneC (Thermo Fisher Scientific Inc., США).
Экзомное секвенирование (n=231) выполнено на приборах NextSeq 550 (Illumina, Inc., США) и HiSeq 1500 (Illumina Inc., США). Полногеномное секвенирование (n=895) проведено на приборе NovaSeq 6000 (Illumina, Inc., США). Все этапы секвенирования выполнены в соответствии с протоколами производителей.
Для NextSeq 550 экзомные библиотеки подготовлены с использованием наборов TruSeq DNA Library Preparation Kit (Illumina, Inc., США) и xGen Exome Research Panel (IDT, Integrated DNA Technologies, Inc., США) в соответствии с протоколом DT-Illumina TruSeq DNA Exome (Illumina, Inc., США). Секвенирование проводили с использованием NextSeq 550 (Illumina, Inc., США) с секвенированием парных концов (150 п.н.).
Для HiSeq 1500 экзомные библиотеки подготовлены с использованием набора Kapa Library Amplification Kit (Roche Holding AG, Швейцария) и NimbleGen SeqCap EZ Exome v3.0 (Roche Holding AG, Швейцария). Секвенирование проводили на HiSeq 1500 (Illumina, Inc., США) с секвенированием парных концов (250 п.н.).
Для NovaSeq 6000 геномные библиотеки подготовлены с помощью набора Nextera DNA Flex kit (Illumina, Inc., США). Секвенирование проводили на NovaSeq 6000 (Illumina, Inc., США) с секвенированием парных концов (300 п.н.) [11].
Биоинформатический анализ
Полученные парные чтения выровнены на референсный геном GRCh38. Дальнейшую обработку данных проводили с помощью специально разработанного пайплайна на основе GATK 3.8. Аннотацию однонуклеотидных вариантов и коротких инсерций и делеций осуществляли с помощью ENSEMBL Variant Effect Predictor [14] и баз данных ClinVar (2021/01/10) [15], gnomAD (v2.1.1) [16], dbSNP [17]. Поиск и анализ структурных вариантов не проводился.
Для полученных данных осуществлены контроль качества, оценки родства и PCA.
В анализ включены патогенные и вероятно патогенные (далее в тексте — патогенные) варианты в 113 генах, включенных в рекомендованный ACMG список для скрининга носительства [8]. Для оценки патогенности выявленных вариантов использованы данные ClinVar [15]. При расчетах и сравнении суммарных частот носительства не учитывались варианты с низкой пенетрантностью в соответствии со списком вариантов, исключенные в исследовании M.H. Guo и A.R. Gregg [18], и варианты, расположенные в областях, не покрытых чтениями в экзомных данных gnomAD [16].
Статистический анализ
Для статистического анализа использованы инструменты языка R v. 4.2.2 [19]. Носителем заболевания считался участник, у которого выявлено не менее одного патогенного варианта в соответствующем гене. Проведено сравнение суммарных частот носительства для каждого включенного в анализ гена с данными Non-Finnish Europeans (NFE) группы в gnomAD, рассчитанными в работе M.H. Guo и A.R. Gregg [18]. Для сравнения суммарных частот носительства применяли точный критерий Фишера. Для поправки на множественное сравнение использовали метод Бенджамини—Хохберга. Различия при значении p<0,05 считались статистически значимыми.
Результаты и обсуждение
В результате анализа в исследуемой выборке выявлено 211 патогенных вариантов в 76 генах. Суммарная частота носительства составила 36,9%, в группе экзомного секвенирования — 36,1%, в группе полногеномного секвенирования — 37,1%.
Для 22 аутосомных генов не выявлен ни один носитель патогенных вариантов, и суммарная частота носительства для каждого гена была статистически значимо ниже 0,5% (p=0,026 с поправкой на множественное сравнение, ДИ [0; 0,33]): AHI1, ANO10, BTD, CBS, CC2D2A, CCDC88C, DHDDS, FXN, GRIP1, HBA1, HBA2, LRP2, MLC1, MMACHC, MMUT, SMN1, SMPD1, TF, CYP11A1, TMEM216, TNXB, NAGA. Из них 4 гена включены в исходные рекомендации не на основании данных gnomAD, поскольку патогенные варианты в этих генах преимущественно представлены протяженными делециями (HBA1, HBA2, SMN1) или экспансией тринуклеотидного повтора (FXN) и их детекция на основании данных NGS затруднена [8].
Для достижения порогового значения риска рождения ребенка с заболеванием (1/160 000; 0,000625%), аналогичного таковому для аутосомных заболеваний с частотой носительства 1/200 (0,5%), частота носительства патогенных вариантов в X-сцепленных генах должна составлять 1/40 000 (0,0025%). В отсутствие исследований частот патогенных вариантов в X-сцепленных генах и в связи с высокой частотой de novo вариантов включение X-сцепленных генов в рекомендации ACMG проводилось на основании распространенности заболеваний с пороговым значением 1/40 000 [8]. В нашем исследовании среди X-сцепленных генов выявлен 1 носитель патогенного варианта в гене F8.
У двух участников исследования выявлены патогенные варианты в гомозиготном состоянии (GJB2, NEB), у одного участника — два патогенных варианта в гетерозиготном состоянии в одном гене (HBB), у одного участника — патогенный вариант в гене, расположенном на X-хромосоме в гемизиготном состоянии (F8). В двух случаях у участников диагностированы соответствующие заболевания, во всех остальных случаях отсутствовали клинические данные, которые позволили бы подтвердить или опровергнуть наличие соответствующего фенотипа.
В связи с тем, что рекомендации ACMG ориентированы на систему здравоохранения США, этническая нейтральность подхода ограничена населением США. Поэтому для применения в других популяциях может потребоваться адаптация рекомендованного списка на основании дополнительного анализа распространенных в них заболеваний и патогенных вариантов. Так, в работе W. Chetruengchai и соавт., выполненной в Таиланде, к 113 генам добавлен ген G6PD, связанный с распространенным в Таиланде дефицитом глюкозо-6-фосфатдегидрогеназы. Доля носителей патогенных вариантов в этом гене среди участников исследования составила 7,7% [20].
В работе A.Y. Barbitoff и соавт. с помощью PCA показана близость населения центральных и северо-западных регионов России к группе NFE в данных gnomAD [21]. В связи с этим данные о суммарных частотах носительства для NFE, рассчитанные в работе M.H. Guo и A.R. Gregg, использованы для сравнения с полученными данными [18]. В таблице приведены гены с частотами суммарного носительства патогенных вариантов, статистически значимо отличающимися от данных gnomAD NFE.
Гены со статистически значимыми различиями суммарных частот носительства при сравнении с европейской популяцией
Ген | Суммарная частота носительства, % | ДИ, % | Суммарная частота носительства по gnomAD для NFE, % [18] | p | p после поправки на множественное сравнение |
Полученная частота выше частоты среди NFE | |||||
PAH | 3,91 | [2,85; 5,21] | 2,12 | 1,61·10–04 | 0,001 |
CYP21A2 | 2,49 | [1,66; 3,57] | 1,40 | 0,005 | 0,03 |
NEB | 1,24 | [0,68; 2,08] | 0,24 | 1,16·10–06 | <0,001 |
BCKDHB | 1,07 | [0,55; 1,85] | 0,18 | 1,74·10–06 | <0,001 |
MCCC2 | 0,62 | [0,25; 1,28] | 0,04 | 7,95·10–07 | <0,001 |
CNGB3 | 0,62 | [0,25; 1,28] | 0,10 | 1,44·10–04 | 0,001 |
GBA | 0,62 | [0,25; 1,28] | 0,13 | 8,43·10–04 | 0,007 |
Полученная частота ниже частоты среди NFE | |||||
MMACHC | 0,00 | [0,00; 0,33] | 0,5 | 0,009 | 0,047 |
BTD | 0,00 | [0,00; 0,33] | 0,6 | 0,003 | 0,018 |
ABCA3 | 0,09 | [0,00; 0,49] | 0,86 | 0,002 | 0,012 |
TF | 0,00 | [0,00; 0,33] | 0,86 | 1,29·10–04 | 0,001 |
CYP11A1 | 0,00 | [0,00; 0,33] | 0,88 | 8,42·10–05 | 0,001 |
NAGA | 0,00 | [0,00; 0,33] | 1,06 | 1,33·10–05 | <0,001 |
COL7A1 | 0,18 | [0,02; 0,64] | 1,30 | 1,01·10–04 | 0,001 |
ACADM | 0,44 | [0,14; 1,03] | 1,66 | 3,89·10–04 | 0,003 |
OCA2 | 0,09 | [0,00; 0,49] | 1,31 | 9,98·10–06 | <0,001 |
CFTR | 2,58 | [1,73; 3,68] | 4,10 | 0,008 | 0,047 |
Ранее показана повышенная по сравнению с европейской популяцией аллельная частота некоторых патогенных вариантов в российской популяции [21, 22]. В исследовании V.E. Ramensky и соавт. найдено 2 таких варианта в исследуемых генах, в исследовании A.Y. Barbitoff и соавт. — 19 [21, 22]. Большинство этих вариантов выявлено в нашем исследовании, исключением являются вариант chr1:215867179T>C (rs372347027) в гене USH2A и вариант chrX:154929410AT>A (rs387906455) в гене F8. Один вариант исключен нами из анализа в связи с низкой пенетрантностью (chr13:20189473C>T, rs72474224). Кроме того, 14 из 18 вариантов были самыми частыми патогенными вариантами в соответствующих генах, а в некоторых случаях — единственными (NEB-chr2:151501423G>A (rs549794342), BCKDHB-chr6:80201023G>A (rs386834233), AIRE-chr21:44289773C>T (rs121434254)).
В настоящий момент все еще не выработан консенсусный подход к выбору генов и заболеваний для включения в скрининг носительства [1, 8, 23, 24], но авторы рекомендаций ACMG подчеркивают важность принятия во внимание частоты носительства в связи со снижением возможности корректно классифицировать новые варианты при их редкости [25].
Кроме того, они признают, что текущая версия является только первой итерацией и будет улучшена в дальнейшем [25]. S. Righetti и соавт. указывают на ошибочность включения MCCC2 в рекомендации, приводя исследование J. Rips и соавт., послужившее основанием для исключения связанного с этим геном заболевания (недостаточность 3-метилкротонил-КоА карбоксилазы) из неонатального скрининга в Израиле [26, 27].
Заключение
Полученная частота носителей подтверждает актуальность проблемы скрининга носительства в российской популяции, однако в связи с отличиями российской популяции как от популяции США, так и от европейской популяции в суммарных частотах патогенных вариантов в генах, связанных с рецессивными заболеваниями, адаптация списка генов с учетом особенностей российской популяции может позволить повысить эффективность анализа получаемых данных и увеличить число выявляемых носителей.
Участие авторов:
Концепция и дизайн исследования — Е.А. Сотникова, А.В. Киселева, А.Н. Мешков, О.М. Драпкина; сбор и обработка материала — Е.А. Сотникова, А.В. Киселева, М. Зайченока, В.Е. Раменский, А.А. Жарикова, Ю.В. Вяткин, А.И. Ершова, М.С. Покровская; статистический анализ данных — Е.А. Сотникова, В.А. Куценко; написание текста — Е.А. Сотникова, А.В. Киселева, А.Н. Мешков; редактирование — А.В. Киселева, В.Е. Раменский, В.А. Куценко, А.И. Ершова, А.Н. Мешков.
Авторы заявляют об отсутствии конфликта интересов.