Однонуклеотидный полиморфизм

Однонуклеотидный полиморфизм (англ. single-nucleotide polymorphism, SNP, мн. ч. SNPs) — это герминативная замена одного нуклеотида в определённой позиции генома. Хотя некоторые определения требуют, чтобы такая замена встречалась в достаточно большой доле популяции (например, 1 % и более)^[1], многие публикации^[2]^[3]^[4] не используют такой порог частоты.

Например, нуклеотид G, присутствующий в определённой позиции референсного генома, может быть заменён на A у части особей. Два возможных варианта нуклеотида в этом SNP — G или A — называются аллелями^[5].

SNPs могут объяснять различия в восприимчивости к широкому спектру заболеваний в популяции. Например, распространённый SNP в гене CFH ассоциирован с повышенным риском возрастной макулярной дегенерации^[6]. Различия в тяжести заболевания или ответе на лечение также могут быть проявлением генетических вариаций, вызванных SNP. Например, два распространённых SNP в гене APOE, rs429358 и rs7412, приводят к формированию трёх основных аллелей APO-E с разным риском развития болезни Альцгеймера и возрастом её начала.

Однонуклеотидные замены с частотой аллеля менее 1 % иногда называют однонуклеотидными вариантами^[7]. Термин «вариант» также может использоваться как общий для любых однонуклеотидных изменений в последовательности ДНК^[8], охватывая как распространённые SNP, так и редкие мутации, как герминативные, так и соматические^[9]^[10]. Термин «однонуклеотидный вариант» также используется для обозначения точечных мутаций, обнаруженных в раковых клетках^[11]. Варианты ДНК также часто учитываются в молекулярной диагностике, например, при разработке праймеров для ПЦР для обнаружения вирусов, когда образец вирусной РНК или ДНК может содержать однонуклеотидные варианты. Однако такая номенклатура использует произвольные различия (например, частота аллеля 1 %) и не применяется последовательно во всех областях; это привело к призывам к более единой системе наименования различий в последовательностях ДНК между двумя образцами^[12]^[13].

Однонуклеотидные полиморфизмы могут располагаться в кодирующих последовательностях генов, некодирующих областях генов или в интергенных регионах (между генами). SNP в кодирующей последовательности не обязательно изменяют аминокислотную последовательность белка, который синтезируется, из-за вырожденности генетического кода.

SNP в кодирующей области бывают двух типов: синонимичные и несинонимичные. Синонимичные SNP не влияют на последовательность белка, тогда как несинонимичные изменяют аминокислотную последовательность белка^[14].

SNP в некодирующих областях могут приводить к повышенному риску рака, а также влиять на структуру мРНК и восприимчивость к заболеваниям. Некодирующие SNP также могут изменять уровень экспрессии гена, выступая в роли eQTL (локус количественного признака экспрессии).
SNP в кодирующих областях:
- синонимичные замены по определению не приводят к изменению аминокислоты в белке, но всё же могут влиять на его функцию иным образом. Примером может служить кажущаяся «тихой» мутация в гене множественной лекарственной устойчивости 1 (MDR1), кодирующем мембранный насос, выкачивающий лекарства из клетки: она может замедлять трансляцию и позволять полипептидной цепи складываться в необычную конформацию, делая мутантный насос менее функциональным (например, полиморфизм C1236T в белке MDR1 изменяет кодон GGC на GGT в позиции 412 полипептида (оба кодируют глицин), а полиморфизм C3435T изменяет ATC на ATT в позиции 1145 (оба кодируют изолейцин))^[15].
- несинонимичные замены:
  - миссенс-мутация — одиночное изменение основания приводит к замене аминокислоты в белке и его дисфункции, что ведёт к заболеванию (например, c.1580G>T SNP в гене LMNA — позиция 1580 (нт) в последовательности ДНК (кодон CGT), где гуанин заменяется на тимин, образуя кодон CTT, что на уровне белка приводит к замене аргинина на лейцин в позиции 527^[16], что проявляется на уровне фенотипа как перекрывающиеся мандибулоакральная дисплазия и прогерия)
  - нонсенс-мутация — точечная мутация в последовательности ДНК, приводящая к преждевременному стоп-кодону, или «нонсенс-кодону» в транскрибируемой мРНК, и к усечённому, неполному и обычно нефункциональному белковому продукту (например, муковисцидоз, вызванный мутацией G542X в гене регулятор трансмембранной проводимости при муковисцидозе)^[17].

SNP, не находящиеся в кодирующих областях белков, могут влиять на сплайсинг генов, связывание транскрипционных факторов, деградацию мРНК или последовательность некодирующих РНК. Экспрессия гена, изменяемая таким SNP, называется eSNP (expression SNP) и может находиться выше или ниже по потоку относительно гена.

В человеческой популяции выявлено более 600 миллионов SNP по всему геному^[18]. Типичный геном отличается от референсного человеческого генома в 4-5 миллионах позиций, большинство из которых (более 99,9 %) составляют SNP и короткие инделы^[19].

Внутри генома

Геномное распределение SNP неоднородно; SNP встречаются в некодирующих областях чаще, чем в кодирующих, или, в целом, там, где действует естественный отбор и «фиксирует» аллель (устраняя другие варианты) SNP, обеспечивающий наилучшую генетическую адаптацию^[20]. Другие факторы, такие как генетическая рекомбинация и скорость мутаций, также определяют плотность SNP^[21].

Плотность SNP можно предсказать по наличию микросателлитов: особенно AT-микросателлиты являются мощными предикторами плотности SNP, причём длинные участки (AT)(n) обычно встречаются в областях с существенно сниженной плотностью SNP и низким содержанием GC^[22].

Внутри популяции

Поскольку существуют различия между человеческими популяциями, SNP-аллель, распространённый в одной географической или этнической группе, может быть редким в другой. Однако такой паттерн встречается относительно редко; в глобальной выборке из 67,3 миллиона SNP Human Genome Diversity Project не обнаружил ни одного частного варианта, который был бы фиксирован на определённом континенте или в крупном регионе. Наивысшие частоты достигаются у нескольких десятков вариантов, присутствующих более чем у 70 % (и у нескольких тысяч — более чем у 50 %) в Африке, Америке и Океании. В то же время, максимальные частоты вариантов, частных для Европы, Восточной Азии, Ближнего Востока или Центральной и Южной Азии, достигают лишь 10-30 %.

Внутри популяции SNP можно охарактеризовать по минорной аллельной частоте (MAF) — наименьшей частоте аллеля в локусе, наблюдаемой в данной популяции. Это просто меньшая из двух частот аллелей для SNP.

Используя эти знания, учёные разработали новые методы анализа структуры популяций у малоизученных видов^[23]^[24]^[25]. Применяя методы пуллирования, стоимость анализа значительно снижается^[26]. Эти методы основаны на секвенировании популяции в объединённом образце вместо секвенирования каждого индивида по отдельности. Новые биоинформатические инструменты позволяют исследовать структуру популяции, генетический поток и миграцию генов по частотам аллелей во всей популяции. Такие протоколы позволяют сочетать преимущества SNP с микросателлитными маркерами^[27]. Однако при этом теряется информация о неравновесии по сцеплению и зиготности.

Однонуклеотидные полиморфизмы служат мощными молекулярными маркерами в современной генетике и клинической практике. Ассоциативные исследования, особенно геномные ассоциативные исследования (GWAS), являются основным применением технологии SNP для выявления генетических вариантов, связанных с заболеваниями и признаками человека^[28]. Эти комплексные анализы исследуют сотни тысяч генетических маркеров одновременно для выявления статистических ассоциаций между конкретными SNP и фенотипическими характеристиками, что позволяет выявлять генетические факторы сложных заболеваний, включая сердечно-сосудистые заболевания, диабет и неврологические заболевания^[29].

Разработка методологии tag SNP значительно повысила эффективность геномных исследований за счёт использования паттернов неравновесия по сцеплению в геноме человека. Tag SNP выступают в роли репрезентативных маркеров, охватывающих генетическое разнообразие в определённых хромосомных регионах, позволяя исследовать большие участки генома без необходимости генотипирования каждого варианта^[30]. Такой подход снижает финансовые и вычислительные затраты при сохранении достаточной мощности для выявления локусов, связанных с заболеваниями. Выбор оптимальных tag SNP основан на сложных алгоритмах, определяющих маркеры, способные охватить максимум генетической информации в заданных интервалах^[31].

Гаплотипная реконструкция — ещё одно фундаментальное применение SNP, позволяющее характеризовать наследуемые блоки генов. Учёные используют плотные карты SNP для выявления и анализа структуры гаплотипов, представляющих собой наборы тесно сцепленных аллелей, которые, как правило, передаются вместе^[32]. Эти паттерны гаплотипов дают представление об истории популяций, демографических событиях и эволюционных процессах, формировавших современное генетическое разнообразие. Международный проект HapMap — пример такого применения, создавший карты распространённых гаплотипов в различных человеческих популяциях^[33].

Анализ неравновесия по сцеплению лежит в основе многих SNP-методов в популяционной генетике и картировании заболеваний. Это явление описывает неслучайную ассоциацию аллелей в разных позициях генома, когда варианты наследуются вместе чаще, чем ожидалось бы случайно^[34]. Степень неравновесия по сцеплению между SNP зависит в первую очередь от физического расстояния на хромосомах и локальных рекомбинационных частот: чем ближе варианты, тем сильнее их ассоциация. Понимание этих паттернов позволяет прогнозировать, какие SNP дадут избыточную информацию, и выбирать информативные маркеры для ассоциативных исследований^[35].

В генетической эпидемиологии SNP стали важнейшими инструментами для изучения путей передачи заболеваний и структуры популяций. Полное секвенирование генома использует вариации SNP для определения кластеров передачи при вспышках инфекционных заболеваний, когда случаи с похожими генетическими профилями могут быть связаны передачей^[36]. Это особенно ценно для эпиднадзора и отслеживания контактов при туберкулёзе, где традиционные методы могут не выявить все связи передачи. Кроме того, SNP-анализы способствуют пониманию стратификации популяций и происхождения, что важно для корректного подбора контрольных групп и интерпретации результатов ассоциативных исследований в разных этнических группах^[37].

Значение

Вариации в последовательностях ДНК человека могут влиять на развитие заболеваний и реакцию на патогены, химические вещества, лекарства, вакцины и другие агенты. SNP также критически важны для персонализированной медицины^[38]. Примеры включают биомедицинские исследования, судебную медицину, фармакогенетику и изучение причин заболеваний.

Клинические исследования

Геномные ассоциативные исследования (GWAS)

Одним из основных вкладов SNP в клинические исследования являются геномные ассоциативные исследования (GWAS)^[39]. Геномные данные могут быть получены с помощью различных технологий, включая SNP-матрицы и полное секвенирование генома. GWAS широко применяются для выявления SNP, связанных с заболеваниями или клиническими фенотипами. Поскольку GWAS охватывает весь геном, требуется большая выборка для достижения достаточной статистической мощности. Некоторые SNP оказывают относительно малое влияние на заболевания или фенотипы. Для оценки мощности исследования необходимо учитывать генетическую модель заболевания: доминантную, рецессивную или аддитивную. Из-за генетической гетерогенности анализ GWAS должен корректироваться по расе.

Кандидатные генные ассоциативные исследования

Кандидатные генные ассоциативные исследования применялись в генетике до появления высокопроизводительных технологий генотипирования и секвенирования^[40]. Они исследуют ограниченное число заранее выбранных SNP на предмет ассоциации с заболеваниями или фенотипами. Это гипотезо-ориентированный подход, для которого достаточно небольшой выборки. Кандидатные исследования также часто используются для подтверждения результатов GWAS на независимых выборках.

Картирование гомозиготности при заболеваниях

Геномные данные по SNP могут использоваться для картирования гомозиготности^[41]. Картирование гомозиготности — метод выявления гомозиготных аутосомно-рецессивных локусов, что может быть мощным инструментом для поиска генов, вовлечённых в патогенез заболеваний.

Метилирование ДНК

Недавние исследования показали, что SNP являются важными компонентами эпигенетической программы у организмов^[42]. Кроме того, исследования европейских и южноазиатских популяций выявили влияние SNP на метилирование определённых CpG-участков^[43]. Анализ обогащения meQTL с использованием базы GWAS показал, что эти ассоциации важны для предсказания биологических признаков^[43]^[44]^[45].

Судебная медицина

SNP исторически использовались для сопоставления судебных ДНК-образцов с подозреваемыми, но были вытеснены технологиями STR-ДНК-дактилоскопии. Однако развитие NGS может расширить применение SNP для фенотипических признаков, таких как этническая принадлежность, цвет волос и цвет глаз, с высокой вероятностью совпадения. Это также может повысить точность реконструкции внешности по ДНК, предоставляя информацию, которая иначе была бы недоступна, и использоваться для идентификации подозреваемых даже без совпадения STR-профиля.

Недостатки использования SNP по сравнению с STR заключаются в том, что SNP дают меньше информации, поэтому для анализа требуется больше SNP до получения профиля подозреваемого. Кроме того, SNP сильно зависят от наличия базы данных для сравнительного анализа. Однако при деградированных или малых образцах SNP-методы являются отличной альтернативой STR-методам. SNP (в отличие от STR) обладают большим количеством потенциальных маркеров, могут быть полностью автоматизированы, а длина требуемого фрагмента может быть сокращена до менее 100 пар оснований^[22].

Фармакогенетика

Фармакогенетика занимается выявлением генетических вариаций, включая SNP, связанных с различиями в ответе на лечение^[46]. Многие ферменты метаболизма лекарств, мишени лекарств или их пути могут быть под влиянием SNP. SNP, влияющие на ферменты метаболизма, могут изменять фармакокинетику, а SNP, влияющие на мишень или путь, — фармакодинамику. Поэтому SNP — потенциальные генетические маркеры для прогнозирования экспозиции или эффективности терапии. Геномные фармакогенетические исследования называются фармакогеномикой. Фармакогенетика и фармакогеномика важны для развития прецизионной медицины, особенно при жизнеугрожающих заболеваниях, таких как рак.

Заболевания

Лишь небольшая часть SNP в человеческом геноме влияет на заболевания. Крупномасштабные GWAS проведены для наиболее значимых заболеваний человека, включая сердечно-сосудистые заболевания, метаболические заболевания, аутоиммунные заболевания, нейродегенеративные и психические расстройства^[39]. Большинство SNP с относительно крупным эффектом уже выявлены. Эти открытия значительно улучшили понимание патогенеза и молекулярных путей заболеваний, а также способствовали разработке новых методов лечения. Дальнейшие GWAS с большими выборками выявят SNP с меньшим эффектом. Для распространённых и сложных заболеваний, таких как сахарный диабет 2 типа, ревматоидный артрит и болезнь Альцгеймера, в этиологии участвуют множественные генетические факторы. Кроме того, взаимодействие ген-ген и ген-среда также играет важную роль в инициации и прогрессировании заболеваний^[47].

rs6311 и rs6313 — SNP в гене серотонинового рецептора 5-HT2A на 13-й хромосоме человека^[48].
SNP −3279C/A (rs3761548) — один из SNP в промоторной области гена Foxp3, может быть вовлечён в прогрессию рака.
SNP в гене F5 вызывает тромбофилию Фактора V Лейден^[49].
rs3091244 — пример триаллельного SNP в гене CRP на 1-й хромосоме человека^[50].
TAS2R38 кодирует способность ощущать вкус PTC и содержит 6 аннотированных SNP^[51].
rs148649884 и rs138055828 в гене FCN1, кодирующем M-фиколин, нарушают способность связывания лиганда у рекомбинантного M-фиколина.
rs12821256 на cis-регуляторном элементе изменяет уровень транскрипции гена KIT-лиганд. У северных европейцев высокий уровень транскрипции приводит к каштановым волосам, а низкий — к светлым. Это пример явного, но не патологического фенотипического изменения, вызванного одним SNP^[52].
Внутригенный SNP в гене репарации несоответствий ДНК PMS2 (rs1059060, Ser775Asn) ассоциирован с повышенным повреждением ДНК сперматозоидов и риском мужского бесплодия.

Как и для генов, существуют биоинформатические базы данных SNP.

dbSNP — база данных SNP от NCBI. По состоянию на июнь 2015 года в dbSNP было зарегистрировано 149 735 377 SNP у человека^[53]^[54].
Kaviar^[55] — компиляция SNP из различных источников, включая dbSNP.
SNPedia — вики-база данных для аннотирования, интерпретации и анализа персональных геномов.
База данных OMIM описывает ассоциации между полиморфизмами и заболеваниями (например, приводит заболевания в текстовой форме).
dbSAP — база данных одноаминокислотных полиморфизмов для обнаружения вариаций белков^[56].
Human Gene Mutation Database — база данных мутаций, вызывающих или ассоциированных с наследственными заболеваниями человека и функциональных SNP.
Международный проект HapMap, в рамках которого исследователи определяют для идентификации набора гаплотипов у каждого индивида.
GWAS Central — позволяет визуально анализировать сводные данные ассоциативных исследований генома.

Международная рабочая группа по SNP сопоставила последовательности, фланкирующие каждый SNP, с геномной последовательностью крупных клонов в Genebank. Эти выравнивания были конвертированы в хромосомные координаты, приведённые в таблице 1^[57]. С тех пор этот список значительно увеличился: например, база Kaviar теперь содержит 162 миллиона однонуклеотидных вариантов.

Хромосома	Длина (п.н.)	Все SNP		SNP TSC
		Всего SNP	кб на SNP	Всего SNP	кб на SNP
1	214 066 000	129 931	1,65	75 166	2,85
2	222 889 000	103 664	2,15	76 985	2,90
3	186 938 000	93 140	2,01	63 669	2,94
4	169 035 000	84 426	2,00	65 719	2,57
5	170 954 000	117 882	1,45	63 545	2,69
6	165 022 000	96 317	1,71	53 797	3,07
7	149 414 000	71 752	2,08	42 327	3,53
8	125 148 000	57 834	2,16	42 653	2,93
9	107 440 000	62 013	1,73	43 020	2,50
10	127 894 000	61 298	2,09	42 466	3,01
11	129 193 000	84 663	1,53	47 621	2,71
12	125 198 000	59 245	2,11	38 136	3,28
13	93 711 000	53 093	1,77	35 745	2,62
14	89 344 000	44 112	2,03	29 746	3,00
15	73 467 000	37 814	1,94	26 524	2,77
16	74 037 000	38 735	1,91	23 328	3,17
17	73 367 000	34 621	2,12	19 396	3,78
18	73 078 000	45 135	1,62	27 028	2,70
19	56 044 000	25 676	2,18	11 185	5,01
20	63 317 000	29 478	2,15	17 051	3,71
21	33 824 000	20 916	1,62	9 103	3,72
22	33 786 000	28 410	1,19	11 056	3,06
X	131 245 000	34 842	3,77	20 400	6,43
Y	21 753 000	4 193	5,19	1 784	12,19
RefSeq	15 696 674	14 534	1,08
Итого	2 710 164 000	1 419 190	1,91	887 450	3,05

Для SNP существует несколько вариантов обозначения, однако единого стандарта нет.

Стандарт rs###, принятый в dbSNP, использует префикс «rs» (reference SNP) и уникальный номер^[58]. SNP часто обозначают по номеру rs, как в примерах выше.

Стандарт HGVS содержит больше информации о SNP. Примеры:

c.76A>T: «c.» — кодирующая область, далее номер позиции нуклеотида, далее однобуквенное обозначение нуклеотида (A, C, G, T или U), далее знак «>» для замены, далее буква заменяющего нуклеотида^[59]^[60]^[61]
p.Ser123Arg: «p.» — белок, далее трёхбуквенное обозначение аминокислоты, далее номер позиции, далее обозначение заменяющей аминокислоты^[62].

SNP легко анализировать, поскольку они содержат только два возможных аллеля и три возможных генотипа: гомозиготный A, гомозиготный B и гетерозиготный AB, что позволяет использовать множество методов анализа. Среди них: секвенирование ДНК; капиллярный электрофорез; масс-спектрометрия; анализ одноцепочечной конформационной полиморфии (SSCP); однобазовое удлинение; электрохимический анализ; денатурирующий ВЭЖХ и гель-электрофорез; анализ рестрикционных фрагментов; гибридизационный анализ.

Важная группа SNP — те, что соответствуют миссенс-мутациям, вызывающим замену аминокислоты в белке. Точечная мутация определённого остатка может по-разному влиять на функцию белка (от отсутствия эффекта до полной потери функции). Обычно замена аминокислот схожего размера и свойств (например, лейцин на валин) имеет слабый эффект, и наоборот. Аналогично, если SNP нарушает элементы вторичной структуры (например, замену на пролин в области альфа-спирали), такая мутация может повлиять на всю структуру и функцию белка. Используя эти и другие правила, основанные на машинном обучении, были разработаны программы для предсказания эффекта SNP:^[63]

SIFT — программа для оценки влияния миссенс- или несинонимичной мутации на функцию белка на основе физических свойств аминокислот и гомологии последовательностей.
LIST (Local Identity and Shared Taxa)^[64] — оценивает потенциальную вредоносность мутаций, исходя из их влияния на функцию белка. Основана на предположении, что вариации, наблюдаемые у близкородственных видов, более значимы для оценки консервативности, чем у дальних.
SNAP2
SuSPect
PolyPhen-2
PredictSNP
MutationTaster
Variant Effect Predictor от проекта Ensembl
SNPViz — программа для 3D-визуализации белка с выделением изменённой аминокислоты, что позволяет врачам оценить патогенность мутантного белка^[65].
PROVEAN
PhyreRisk — база данных, сопоставляющая варианты с экспериментальными и предсказанными структурами белков^[66].
Missense3D — инструмент для стереохимического анализа влияния миссенс-вариантов на структуру белка^[67].

Glossary (неопр.). Nature Reviews.
Human Genome Project Information — SNP Fact Sheet

Ресурсы NCBI — Введение в SNP от NCBI
The SNP Consortium LTD — поиск SNP
База данных NCBI dbSNP — «центральное хранилище однонуклеотидных замен и коротких делеций и инсерций»
HGMD — Human Gene Mutation Database, включает редкие мутации и функциональные SNP
GWAS Central — центральная база данных ассоциативных исследований генома
Проект 1000 геномов — глубокий каталог генетического разнообразия человека
WatCut — онлайн-инструмент для проектирования SNP-RFLP анализов
SNPStats — веб-инструмент для анализа ассоциативных генетических исследований
Restriction HomePage — набор инструментов для рестрикционного анализа ДНК и обнаружения SNP, включая проектирование мутагенных праймеров
Факты о SNP от Американской ассоциации по исследованию рака
PharmGKB — база знаний по фармакогенетике и фармакогеномике, ресурс по SNP, связанным с ответом на лекарства и исходами заболеваний
GEN-SNiP — онлайн-инструмент для идентификации полиморфизмов в тестовых последовательностях ДНК
Правила номенклатуры генов, генетических маркеров, аллелей и мутаций у мышей и крыс
Руководство HGNC по номенклатуре генов человека
SNP effect predictor с интеграцией Galaxy
Open SNP — портал для обмена результатами собственных SNP-тестов
dbSAP — база данных SNP для обнаружения вариаций белков

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

Однонуклеотидный полиморфизм

Типы

Частота

Внутри генома

Внутри популяции

Применение

Значение

Клинические исследования

Геномные ассоциативные исследования (GWAS)

Кандидатные генные ассоциативные исследования

Картирование гомозиготности при заболеваниях

Метилирование ДНК

Судебная медицина

Фармакогенетика

Заболевания

Примеры

Базы данных

Номенклатура

Анализ SNP

Программы для предсказания эффектов SNP

См. также

Примечания

Литература

Ссылки

Категории