1000 геномов

1000 геномов (1KGP) — это международный исследовательский проект, целью которого было создание на тот момент самого подробного каталога генетического разнообразия человека. Учёные планировали секвенировать геномы как минимум одной тысячи анонимных здоровых участников из различных этнических групп в течение трёх лет, используя достижения в области новых технологий секвенирования. В 2010 году проект завершил пилотную фазу, подробно описанную в публикации журнала Nature[1]. В 2012 году секвенирование 1092 геномов было анонсировано в публикации Nature[2]. В 2015 году две статьи в Nature сообщили о результатах, завершении проекта и перспективах дальнейших исследований[3][4].

Были выявлены многие редкие варианты, ограниченные близкородственными группами, и проанализированы восемь классов структурных вариаций[5].

Проект объединил междисциплинарные исследовательские группы из институтов по всему миру, включая Китай, Италию, Японию, Кению, Нигерию, Перу, Великобританию и США, которые внесли вклад в формирование набора последовательностей и уточнённой карты генома человека, свободно доступной через публичные базы данных для научного сообщества и широкой общественности[2].

После завершения проекта был создан Международный ресурс образцов генома (International Genome Sample Resource) для хранения и расширения набора данных[6].

undefined

Предпосылки

После завершения проекта «Геном человека» достижения в области популяционной генетики человека и сравнительной геномики позволили глубже понять генетическое разнообразие[7]. Формировалось понимание структурных вариаций (инсерции/делеции (инделы), вариации числа копий (CNV), Ретроэлементы), однонуклеотидных полиморфизмов (SNP), а также естественного отбора.[8][9][10][11]

Разнообразие генетических вариантов человека, таких как инделы, продолжало выявляться, а изучение вариаций человеческого генома активно развивалось.

Естественный отбор

Проект также был нацелен на предоставление данных, позволяющих исследовать влияние естественного отбора на различия между популяциями. Модели ДНК-полиморфизмов могут использоваться для надёжного выявления следов отбора и способствовать идентификации генов, которые могут лежать в основе различий в устойчивости к заболеваниям или метаболизме лекарств[12].[13] Такие данные могут улучшить понимание фенотипических вариаций, генетических заболеваний и менделевского наследования и их влияния на выживание и/или воспроизводство различных человеческих популяций.

Описание проекта

Цели

Проект «1000 геномов» был задуман для преодоления разрыва в знаниях между редкими генетическими вариантами, оказывающими выраженное влияние преимущественно на простые признаки (например, Муковисцидоз, Болезнь Хантингтона), и распространёнными вариантами, оказывающими слабое влияние и вовлечёнными в сложные признаки (например, когнитивные функции, диабет, сердечные заболевания)[14].

Основной целью проекта было создание полного и детального каталога генетических вариантов человека, который может быть использован для ассоциативных исследований, связывающих генетические вариации с заболеваниями. Консорциум стремился выявить более 95 % вариантов (например, SNP, CNV, инделы) с минорной аллельной частотой до 1 % по всему геному и 0,1–0,5 % в генах, а также оценить частоты вариантов в популяциях, гаплотипные фоны и паттерны дисбаланса сцепления аллелей[15].

Второстепенные задачи включали поддержку лучшего выбора SNP и проб для платформ генотипирования в будущих исследованиях и совершенствование референсной последовательности человека. Ожидалось, что завершённая база данных станет полезным инструментом для изучения регионов под отбором, вариаций в различных популяциях и понимания процессов мутаций и рекомбинации[15].

Структура

Геном человека состоит примерно из 3 миллиардов пар оснований ДНК и, по оценкам, содержит около 20 000 белок-кодирующих генов. При проектировании исследования консорциуму необходимо было решить ряд критических вопросов, касающихся метрик проекта, таких как технологические вызовы, стандарты качества данных и глубина покрытия последовательностей[15].

В течение следующих трёх лет учёные из Института Сэнгера, BGI Shenzhen и Национального института исследований генома человека (NHGRI) планировали секвенировать не менее 1000 человеческих геномов. Из-за большого объёма необходимых данных набор участников постоянно расширялся[14].

Почти 10 миллиардов оснований планировалось секвенировать ежедневно в течение двухлетней производственной фазы, что эквивалентно более чем двум человеческим геномам каждые 24 часа. Итоговый набор данных должен был составить 6 триллионов оснований ДНК, что в 60 раз превышало объём данных, опубликованных в ДНК-базах на тот момент[14].

Для определения окончательного дизайна полного проекта в первый год планировалось провести три пилотных исследования. Первый пилот предусматривал генотипирование 180 человек из 3 основных географических групп с низким покрытием (2×). Во втором пилоте геномы двух нуклеарных семей (оба родителя и взрослый ребёнок) должны были быть секвенированы с глубоким покрытием (20× на геном). Третий пилот включал секвенирование кодирующих регионов (экзонов) 1000 генов у 1000 человек с глубоким покрытием (20×)[14][15].

Оценивалось, что проект обошёлся бы более чем в 500 миллионов долларов при использовании стандартных технологий секвенирования ДНК. Применение новых технологий (например, Solexa, 454, SOLiD) позволило снизить ожидаемые затраты до 30–50 миллионов долларов. Основную поддержку оказали Институт Сэнгера Wellcome Trust в Хинктоне (Англия), Пекинский институт геномики, Шэньчжэнь (BGI Shenzhen, Китай) и NHGRI, входящий в состав Национальных институтов здравоохранения США (NIH).[14]

В соответствии с принципами Форт-Лодердейла[16]. все данные секвенирования геномов (включая варианты) свободно доступны по мере выполнения проекта и могут быть загружены через ftp с сайта проекта 1000 геномов[17].

Образцы человеческих геномов

В соответствии с целями проекта, образцы выбирались для обеспечения мощности в популяциях, где проводятся ассоциативные исследования распространённых заболеваний. Кроме того, для каталога не требовалась медицинская или фенотипическая информация, поскольку он задумывался как базовый ресурс по вариабельности человека[15].

В пилотных исследованиях секвенировались образцы человеческих геномов из коллекции . Было полезно сосредоточиться на образцах, для которых доступны дополнительные данные (например, последовательности ENCODE, генотипы по всему геному, фосмидные концы, анализы структурных вариаций и экспрессия генов), чтобы сравнить результаты с другими проектами.[15]

Соблюдая строгие этические процедуры, проект 1000 геномов использовал образцы от добровольных доноров. В исследование были включены следующие популяции: йоруба в Ибадане (YRI, Нигерия); японцы в Токио (JPT); китайцы в Пекине (CHB); жители Юта с предками из северной и западной Европы (CEU); лухья в Вебуйе, Кения (LWK); масаи в Киньява, Кения (MKK); тосканцы в Италии (TSI); перуанцы в Лиме, Перу (PEL); гуджаратцы в Хьюстоне (GIH); китайцы в агломерации Денвер (CHD); люди мексиканского происхождения в Лос-Анджелесе (MXL); и люди африканского происхождения на юго-западе США (ASW).[14]

ID Место Популяция Примечания
ASW США* Африканское происхождение на юго-западе США [2]
ACB Барбадос* Афрокарибцы на Барбадосе [3]
BEB Бангладеш Бенгальцы в Бангладеш [4]
GBR Великобритания Британцы из Англии и Шотландии [5]
CDX Китай Дай в Сишуанбаньна, Китай [6]
CLM Колумбия Колумбийцы в Медельин, Колумбия [7]
ESN Нигерия Эсан в Нигерии [8]
FIN Финляндия Финны в Финляндии [9]
GWD Гамбия Гамбийцы в Западном округемандинка [10]
GIH США* Гуджаратцыиндийцы в Хьюстон, Техас, США [11]
CHB Китай Ханьцы в Пекин, Китай [12]
CHS Китай Ханьцы (южный Китай) [13]
IBS Испания Иберийцы в Испании [14]
ITU Великобритания* Индийцы-телугу в Великобритании [15]
JPT Япония Японцы в Токио, Япония [16]
KHV Вьетнам Кин в Хошимин, Вьетнам [17]
LWK Кения Лухья в Вебуйе, Кения [18]
MSL Сьерра-Леоне Менде в Сьерра-Леоне [19]
MXL США* Мексиканское происхождение в Лос-Анджелес, Калифорния, США [20]
PEL Перу Перуанцы в Лима, Перу [21]
PUR Пуэрто-Рико Пуэрториканцы в Пуэрто-Рико [22]
PJL Пакистан Пенджабцы в Лахор, Пакистан [23]
STU Великобритания* Тамилы Шри-Ланки в Великобритании [24]
TSI Италия Тосканцы в Италии [25]
YRI Нигерия Йоруба в Ибадан, Нигерия [26]
CEU США* Жители Юта с предками из северной и западной Европы из коллекции CEPH [27]

* Популяция, собранная в диаспоре

Встреча сообщества

Данные, полученные в рамках проекта 1000 геномов, широко используются генетическим сообществом, а первая статья по проекту стала одной из самых цитируемых в биологии.[18] Для поддержки пользователей в июле 2012 года была проведена встреча сообщества, на которой обсуждались ключевые открытия проекта, их влияние на популяционную генетику и исследования заболеваний человека, а также были представлены обзоры других крупных проектов секвенирования[19].

Результаты проекта

Пилотная фаза

Пилотная фаза включала три проекта:

  • секвенирование всего генома с низким покрытием у 179 человек из 4 популяций
  • секвенирование с высоким покрытием двух трио (мать-отец-ребёнок)
  • таргетное секвенирование экзонов у 697 человек из 7 популяций

Было установлено, что в среднем каждый человек несёт около 250–300 вариантов с потерей функции в аннотированных генах и 50–100 вариантов, ранее связанных с наследственными заболеваниями. По данным двух трио, оценено, что частота новых (de novo) мутаций в зародышевой линии составляет примерно 10−8 на основание на поколение[1].

Примечания

Ссылки