Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Харченко Е.П.

ФГБУН Институт эволюционной физиологии и биохимии им. И.М. Сеченова РАН

Частные и общие ограничения в кодировании генов и синонимическое рекодирование их

Авторы:

Харченко Е.П.

Подробнее об авторах

Просмотров: 776

Загрузок: 3


Как цитировать:

Харченко Е.П. Частные и общие ограничения в кодировании генов и синонимическое рекодирование их. Молекулярная генетика, микробиология и вирусология. 2024;42(1):43‑49.
Kharchenko EP. Particular and general limitations in gene coding and synonymous recoding of genes. Molecular Genetics, Microbiology and Virology. 2024;42(1):43‑49. (In Russ.)
https://doi.org/10.17116/molgen20244201143

Рекомендуем статьи по данной теме:
Ге­не­ти­чес­кий код и не­ко­то­рые осо­бен­нос­ти его ре­али­за­ции в мРНК. Мо­ле­ку­ляр­ная ге­не­ти­ка, мик­ро­би­оло­гия и ви­ру­со­ло­гия. 2024;(4):3-11
Осо­бен­нос­ти те­че­ния бо­ле­во­го син­дро­ма у па­ци­ен­тов с шван­но­ма­то­за­ми. Жур­нал нев­ро­ло­гии и пси­хи­ат­рии им. С.С. Кор­са­ко­ва. 2024;(5):48-52
По­ли­мор­фные ва­ри­ан­ты в клас­те­ре ге­нов, ко­ди­ру­ющих ре­цеп­то­ры сле­до­вых ами­нов, и ког­ни­тив­ное фун­кци­они­ро­ва­ние у па­ци­ен­тов с расстройства­ми ши­зоф­ре­ни­чес­ко­го спек­тра и здо­ро­вых. Жур­нал нев­ро­ло­гии и пси­хи­ат­рии им. С.С. Кор­са­ко­ва. 2024;(9):122-128

Рекодирование генома и отдельных генов активно используется в синтетической биологии. Чаще всего при рекодировании применяют оптимизацию и деоптимизацию частот кодонов и их пар и динуклеотидов CpG и UpA, модификации нуклеотидов [1]. Результаты их использования оказываются неоднозначными и нередко сопряжены с ухудшением свойств у новых вариантов синтетических геномов и генов. Кроме того, у вирусов введенные в геном синонимические замены могут в результате мутаций реверсировать к кодонам диких штаммов [2], что можно рассматривать как сигнал о существовании ограничений в кодировании генома и отторжение введенных синонимических замен кодонов. Запреты в коде отдельных генов на некоторые кодоны весьма распространены в природе, особенно в случае коротких белков с экстремальными значениями % GC их генов, например, в генах гистонов. У вирусов с характерным для них значительным варьированием геномов по содержанию % GC запреты на отдельные кодоны особенно часты. Так, в гене гемагглютинина у штаммов вируса гриппа подтипа H1N1 прослеживается более столетия неизменное исключение квартета триплетов (CGA, CGG, CGC и CGT), кодирующих аргинин, в его генах полимеразного комплекса запреты вовсе отсутствуют [3], а в гене нуклеопротеина коронавирусов нет кодонов цистеина [4].

Априори следует признать, что состав кодонов гена каждого белка является оптимальным в аспекте выполнения белком функций в организме и сформировался в процессе эволюции. При специфичности первичной структуры каждого белка стабильность соответствующих им мРНК будет, естественно, сильно варьировать. Цель же синтетической биологии, например, в случае получения мРНК вакцин против вирусов, — обеспечить ее стабильность, сохраняя первичную (антигенную) структуру вирусного белка, посредством синонимических мутаций. Но мРНК не только задает первичную структуру белка, но и содержит в себе регуляторный код. О наличии последнего свидетельствуют возможности изменения синонимическими мутациями стабильности мРНК и ее вторичной структуры, эффективности трансляции, локализации и сплайсинга мРНК и котрансляционного свертывания белка [2]. Стабильность мРНК и ее вторичной структуры в зависимости от содержания гуанина и цитозина, как и медленное считывание кодонов, обогащенных ими, объяснимы способностью гуанина и цитозина формировать комплементарное взаимодействие большим числом водородных связей, по сравнению с аденином и урацилом. Что же касается изменения других свойств мРНК при заменах синонимическими кодонами, то их можно рассматривать в аспекте возможности существования ограничений в кодировании генов на уровне последовательности кодонов.

Цель исследования — в введении количественных характеристик кодонов и выявлении особенностей соседства кодонов в их линейной последовательности в генах.

Материал и методы

Для компьютерного анализа молекулярных характеристик генов и кодируемых ими белков были использованы 30 генов (и кодируемые ими белки) вирусов, бактерий, архей и человека. Источником первичных структур генов и кодируемых ими белков служили общедоступные в Интернете базы данных (https://viralzone.expasy.org, https://www.nextprot.org и https://www.platform.gisaid.org). В них определяли аминокислотный состав и частоту дипептидов, нуклеотидный и динуклеотидный составы, трансляционный код и составы соседствующих ди- и трикодонов.

Для выявления ограничений в кодировании генов были построены линейные последовательности оцифрованных трикодонов, считанных со сдвигом рамки на один кодон, имитируя процесс трансляции на рибосомах. Их первым числовым показателем служил индекс комплементарности (ИК) — сумма водородных связей, которые способны образовывать составляющие их кодоны. ИК отдельных кодонов приведены в таблице генетического кода (рис. 1). Максимальное значение ИК у трикодонов составляет 27, а минимальное — 18. Трикодоны, включающие все 4 нуклеотидные основания, имеют соответственно промежуточные значения от 19 до 26.

Рис. 1. Таблица генетического кода с приведенными значениями индексов комплементарности кодонов.

В статье использован международный код аминокислот: A — аланин, C — цистеин, D — аспарагиновая кислота, E — глутаминовая кислота,F — фенилаланин, G — глицин, H — гистидин, I —изолейцин, K — лизин, L — лейцин, M — метионин, N — аспарагин, P — пролин, Q — глутамин, R — аргинин, S — серин, T — треонин, V — валин, W — триптофан, Y — тирозин. Для обозначения нуклеиновых оснований используется следующая аббревиатура: A — аденин, G — гуанин, C — цитозин, T — тимин.

Вторым числовым показателем трикодонов служил индекс размерности пуринов и пиримидинов. Учитывая близость структур между пуринами и между пиримидинами и различия между пуринами и пиримидинами в их молекулярных размерах, для аденина и гуанина индекс размерности условно был принят за 2, а для пиримидинов цитозина и тимина (урацила) за 1. Исходя их этих предпосылок были рассчитаны значения индексов размерности для кодонов и трикодонов.

Результаты и обсуждение

Как показал выполненный компьютерный анализ, ограничения в кодировании генов выявляется по разным их характеристикам. A priori при широком варьировании таксонов по процентному содержанию гуанина и цитозина (% GC) в геномах составляющих их организмов заведомо ожидаемы особенности их генов по составу и последовательности кодонов. Но различия свойствены не только организмам разных таксонов, но и разным генам в пределах генома организма. У человека ген гистона H4 содержит 64% GC, а ген сывороточного альбумина — лишь 41% GC. И даже у вирусов при наименьших размерах их геномов наблюдается существенные различия генов по нуклеотидному составу. У вируса гриппа подтипа H1N1 ген гемагглютинина содерит 41% GC, а в гене нуклеопротеина 47% GC. Отметим, что применительно к РНК-содержащим вирусам более корректная характеристика генома представляется по содержанию каждого нуклеотида.

Распространенное в литературе по рекодированию генома утверждение об обедненности мРНК динуклеотидами CpG и UpA у организмов во всей эволюционной иерархии [1, 2] является спорным. Приведенные на рис. 2 данные по динуклеотидным составам генов у вирусов с резко отличными значениями % GC их геномов свидетельствуют о корреляции содержания CpG в генах с нуклеотидным составом их геномов и независимости от нуклеотидного состава геномов их хозяев. Осторожность при рекодировании вирусов следует проявлять и в отношении динуклеотида UpA(TpA): его содержание в генах вирусов, приведенных на рис. 2, также коррелирует с нуклеотидным составом генов и не является наименьшим среди всех динуклеотидов. В генах же самих хозяев вирусов, например, упомянутых генов гистонов (или рибосом) и сывороточного альбумина, частота в них динуклеотидов CpG и UpA также коррелирует с нуклеотидным составом их генов.

Рис. 2. Динуклеотидный состав вирусных генов.

Анализ трансляционного кода белков служит другой ступенью в обобщенной оценке использования кодонов в их генах. На рис. 3 для сравнения представлены трансляционные коды генов гистона H4 и сывороточного альбумина человека, гемагглютинина H1 вируса гриппа и S белка коронавируса SARS-Cov-2. В генах гистона H4, гемагглютинина H1 и S белка отмечаются запреты на кодоны. Наибольшее число запретов в гене гистона H4, что, возможно, отражает, с одной стороны, историю возникновения генетического кода и связывание с ДНК в составе нуклеосом [5], и, с другой стороны, связано с короткой длиной гистона H4. Однако длина белка не служит определяющим фактором в существовании запретов на кодоны в гене. S белок коронавируса SARS-Cov-2 более чем в 2 раза длиннее гемагглютинина H1 вируса гриппа, но также, как и ген гемагглютинина H1, содержит запреты на отдельные кодоны.

Рис. 3. Примеры нуклеотидного состава и трансляционного кода генов вирусов и человека.

Следующим уровнем описания ограничений в кодировании генов служит анализ дикодонового состава.

На рис. 4 представлена встречаемость пар кодонов в гене гемагглютинина H1A/California/04/2009. Из 61 смыслового кодона генетического кода возможно образование 3721 пары кодонов, и поскольку чаще всего в природе встречаются белки длиною в 500—600 аминокислот, то заведомо соседство кодонов в первичной структуре гена гемагглютинина H1, длина которого составляет 566 кодонов, будет резко ограниченным. Из 565 возможных пар кодонов в HAH1 A/California/04/2009 используется всего 495 разных пар кодонов. Данные рис. 4 позволяют установить:

а) какие кодоны (и аминокислоты) и как часто они соседствуют друг с другом;

б) в какой позиции (в 1 или во 2) кодоны (и аминокислоты) соседствуют друг с другом;

в) частоту использования синонимических кодонов.

Рис. 4. Частота встречаемости дикодонов в гене H1 гемагглютинина вируса H1N1 A/California/04/2009.

Первый вертикальный ряд и первый горизонтальный ряд сверху — обозначения аминокислот; второй вертикальный ряд и второй горизонтальный ряд сверху — нумерация кодонов; третий вертикальный ряд — кодоны.

На рис. 4 видно, что в основном все пары кодонов в гене гемагглютинина H1 уникальны и лишь незначительная часть их пар повторяется. Последние, по-видимому, могут служить предостережением от синонимических замен при рекодировании. Каждый из исследованных нами генов имел свою уникальную картину соседства кодонов.

Рассмотренные выше показатели частоты встречемости в генах динуклеотидов и дикодонов и трансляционный код белков можно отнести к показателям частных ограничений в кодировании генов, поскольку оказываются специфическими для гена каждого белка. Для иллюстрации существования общих ограничений в кодировании генов наглядным представляется рассмотрение линейных последовательностей числовых показателей трикодонов, считанных со сдвигом рамки на один кодон, как это происходит при трансляции мРНК на рибосомах. На рис. 5 представлена последовательность ИК гена сывороточного альбумина человека, на котором видно, что при возможном варьировании значения ИК трикодонов от 27 до 18 (что допускает разницу между соседствующими ИК до 9) разница между соседствующими ИК имеет низкие значения. Максимальное и минимальное значения ИК у гена сывороточного альбумина составляют соответственно 25 и 19. Данные таблицы подтверждают, что лишь 8 (выделены на рис. 5) соседствующих пар ИК имеют разницу 3, а у остальных она не более 2, т. е. кодирование генов имеет определенные ограничения. Об общности (универсальности) этих ограничений свидететельствуют приведенные в таблице показатели разниц ИК и других генов, резко варьирующих по процентному содержанию GC. В каждом гене лищь 2—3% трикодонов разнятся от предшествующих трикодонов по ИК на 3, а 74—84% соседствующих трикодонов имеют разницу по ИК 0 или 1, т.е. даже разница между ИК на 2 не предпочтительна.

Различия трикодонов, считываемых со сдвигом на один шаг, по их индексам комплементарности

Название белка гена, хозяин

% GC гена

Длина гена в кодонах

Частота встречаемости разницы последовательных трикодонов по ИК

значения разницы

0

1

2

3

Сывороточный альбумин (человек)

43

609

208

293

99

8

Каталаза-пероксидаза (E.coli)

56

726

237

312

156

20

S белок (коронавирус SARS-CoV-2)

37

1273

445

600

211

16

Структурный полипротеин (вирус краснухи)

69

1062

345

552

141

21

Рис. 5. Последовательность значений индексов комплементарности трикодонов гена сывороточного альбумина человека при сдвиге рамки считывания на 1 кодон.

Если у гена сывороточного альбумина человека, содержащего 43% GC в последовательности, среди ИК трикодонов превалирует индексы со значением 21 и 22, то у гена структурного полипротеина вируса краснухи, содержащего 69% GC, наиболее часты ИК со значением 24 и 25, а у гена S белка коронавируса SARS-Cov-2 с содержанием 37% GC доминируют ИК со значением 20—22. Однако на каждый из генов распространяются ограничения по малой разнице между соседствующими ИК (см. таблицу).

По использованной нами модели трансляции мРНК в генах каждый кодон, за исключением первых и последних трех кодонов, включается, как и при трансляции мРНК на рибосомах, в три последовательно считаваемые трикодоны, и, следовательно, ИК каждого кодона связан с ИК двух предшествующих и двух последующих кодонов. Это подводит к признанию существования в генах континуума связности кодонов по значениям их ИК.

Следует специально подчеркнуть, что общие ограничения в2q кодировании генов не ведут к запретам в первичной структуре белков, что обусловлено особенностями композиции генетического кода: вырожденность кодирования аминокислот не одним кодоном реализуется триплетами, разница между которыми по общей сумме образуемых ими водородных связей (по ИК) не превышает 1. При ограничениях в кодировании гена для отсутствия ограничений соседства аминокислот в белке важно (особенно для аминокислот, кодируемых двумя кодонами), что в третьей позиции их кодонов (см. рис. 1) содержатся некомплементарные основания: либо аденин и гуанин либо цитозин и тимин (урацил).

Для объяснения выявленного феномена ограничения в кодировании генов в качестве рабочей гипотезы можно предположить следующую. Известно, что процесс трансляции на рибосомах сопряжен с взаимодействием рРНК с мРНК. Теоретически оно могло бы реализоваться через комплементарное взаимодействие их нуклеотидов. При каждом сдвиге мРНК на один кодон в рибосоме сила ее взаимодействия с рРНК зависит от количества комплементарных взаимодействий их нуклеотидов. Максимально взаимодействие между мРНК и рРНК при сдвиге на 1 кодон может увеличиваться либо уменьшаться на 3 пары комплементарных взаимодействий, и этот максимум не является оптимальным для трансляции. Возможно, «однородная» последовательность нуклеотидов в мРНК с близкими (<3) значениями разницы ИК соседствующих трикодонов адаптирует структуру рибосом к процессу трансляции, оптимизируя время взаимодействия кодона с антикодоном в тРНК и избегая сшибок в считывании кодонов. Возможным аргументом в пользу роли комплементарных взаимодействий между мРНК и рРНК в ограничении кодирования генов служит то, что варьирование разниц индексов размерности соседствующих трикодонов не характеризовалось той степенью ограниченности, как это проявляется в случае ИК, соседствующих трикодонов. (Поэтому рассмотрение индексов размерности в статье было опущено.)

Одним из следствий ограничения в кодировании генов является влияние его на ограничение многообразия белков путем сужения масштаба их мутагенеза. Оно вероятнее всего будет проявляться в случае кодонов, синонимические кодоны которых имеют ИК, равный 6 и 9. Так в представленном на рис. 6 фрагменте сыворотчного белка человека синонимические мутации GGC и GGG в кодоне глицина GGT изменят ИК выделенного серым цветом трикодона с 24 на 25, в результате чего разница его от ИК предшествующего кодона составит 3. Эту разницу, как следует из данных табл. 1, природа в 97—98% случаев избегает при кодировании генов.

Рис. 6. Иллюстрация расчета индексов комплементарности трикодонов, считываемых сдвигом на 1 кодон.

1-й ряд букв — последовательность аминокислот, 2-й ряд — обозначения кодонов, 3-й ряд — обозначения индексов комплементарности кодонов, 4-й ряд — обозначения индексов комплементарности трикодонов.

Особенностью живых организмов, как и их вирусов, служит единство принципов структурной организации белков и механизмов белок-синтезирующего аппарата. Реализованное в эволюции многообразие первичных структур белков существенно меньше потенциально возможного. В числе основных способов увеличения размеров и числа белков — генные дупликации и мозаичные комбинации. Свой вклад в ограничение многообразия первичных структур белков вносят, по-видимому, и ограничения в кодировании генов.

В практическом аспекте выявленные общие (как и частные) ограничения в кодировании генов имеют отношение прежде всего к синонимическому рекодированию генов, которое может приводить к нарушению природной оптимальности последовательности кодонов в гене и к неудачам. Учет выявленных общих ограничений и отклонения от них при рекодировании позволит оценивать специфику их последствий и уменьшать эмпиризм в синтетической биологии. Ныне для реализации рекодирования активно привлекается компьютерное программирование [6, 7]. Возможно, с его помощью будут выявлены те границы естественного кодирования генов, которые нельзя переступать.

Другая сфера, в которой ограничения в кодировании генов также важно учитывать, — антителогенез. Хотя теоретически возможное многообразие антител оценивается астрономическими величинами, в связи с выявленным феноменом ограничения в кодировании генов оценки их многообразия, вероятно, имеют более низкие значения, что подтверждается ограниченными возможностями адаптивной иммунной системы в борьбе против инфекций.

Заключение

Хотелось бы подчеркнуть полезность биоинформативного анализа в выявлении новых общих особенностей последовательностей генов, недоступном непосредственно эксперименту.

Автор заявляет об отсутствии конфликта интересов.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.