1000 геномов

1000 геномов (1KGP) — это международный исследовательский проект, целью которого было создание на тот момент самого подробного каталога генетического разнообразия человека. Учёные планировали секвенировать геномы как минимум одной тысячи анонимных здоровых участников из различных этнических групп в течение трёх лет, используя достижения в области новых технологий секвенирования. В 2010 году проект завершил пилотную фазу, подробно описанную в публикации журнала Nature^[1]. В 2012 году секвенирование 1092 геномов было анонсировано в публикации Nature^[2]. В 2015 году две статьи в Nature сообщили о результатах, завершении проекта и перспективах дальнейших исследований^[3]^[4].

Были выявлены многие редкие варианты, ограниченные близкородственными группами, и проанализированы восемь классов структурных вариаций^[5].

Проект объединил междисциплинарные исследовательские группы из институтов по всему миру, включая Китай, Италию, Японию, Кению, Нигерию, Перу, Великобританию и США, которые внесли вклад в формирование набора последовательностей и уточнённой карты генома человека, свободно доступной через публичные базы данных для научного сообщества и широкой общественности^[2].

После завершения проекта был создан Международный ресурс образцов генома (International Genome Sample Resource) для хранения и расширения набора данных^[6].

После завершения проекта «Геном человека» достижения в области популяционной генетики человека и сравнительной геномики позволили глубже понять генетическое разнообразие^[7]. Формировалось понимание структурных вариаций (инсерции/делеции (инделы), вариации числа копий (CNV), Ретроэлементы), однонуклеотидных полиморфизмов (SNP), а также естественного отбора.^[8]^[9]^[10]^[11]

Разнообразие генетических вариантов человека, таких как инделы, продолжало выявляться, а изучение вариаций человеческого генома активно развивалось.

Естественный отбор

Проект также был нацелен на предоставление данных, позволяющих исследовать влияние естественного отбора на различия между популяциями. Модели ДНК-полиморфизмов могут использоваться для надёжного выявления следов отбора и способствовать идентификации генов, которые могут лежать в основе различий в устойчивости к заболеваниям или метаболизме лекарств^[12].^[13] Такие данные могут улучшить понимание фенотипических вариаций, генетических заболеваний и менделевского наследования и их влияния на выживание и/или воспроизводство различных человеческих популяций.

Цели

Проект «1000 геномов» был задуман для преодоления разрыва в знаниях между редкими генетическими вариантами, оказывающими выраженное влияние преимущественно на простые признаки (например, Муковисцидоз, Болезнь Хантингтона), и распространёнными вариантами, оказывающими слабое влияние и вовлечёнными в сложные признаки (например, когнитивные функции, диабет, сердечные заболевания)^[14].

Основной целью проекта было создание полного и детального каталога генетических вариантов человека, который может быть использован для ассоциативных исследований, связывающих генетические вариации с заболеваниями. Консорциум стремился выявить более 95 % вариантов (например, SNP, CNV, инделы) с минорной аллельной частотой до 1 % по всему геному и 0,1–0,5 % в генах, а также оценить частоты вариантов в популяциях, гаплотипные фоны и паттерны дисбаланса сцепления аллелей^[15].

Второстепенные задачи включали поддержку лучшего выбора SNP и проб для платформ генотипирования в будущих исследованиях и совершенствование референсной последовательности человека. Ожидалось, что завершённая база данных станет полезным инструментом для изучения регионов под отбором, вариаций в различных популяциях и понимания процессов мутаций и рекомбинации^[15].

Структура

Геном человека состоит примерно из 3 миллиардов пар оснований ДНК и, по оценкам, содержит около 20 000 белок-кодирующих генов. При проектировании исследования консорциуму необходимо было решить ряд критических вопросов, касающихся метрик проекта, таких как технологические вызовы, стандарты качества данных и глубина покрытия последовательностей^[15].

В течение следующих трёх лет учёные из Института Сэнгера, BGI Shenzhen и Национального института исследований генома человека (NHGRI) планировали секвенировать не менее 1000 человеческих геномов. Из-за большого объёма необходимых данных набор участников постоянно расширялся^[14].

Почти 10 миллиардов оснований планировалось секвенировать ежедневно в течение двухлетней производственной фазы, что эквивалентно более чем двум человеческим геномам каждые 24 часа. Итоговый набор данных должен был составить 6 триллионов оснований ДНК, что в 60 раз превышало объём данных, опубликованных в ДНК-базах на тот момент^[14].

Для определения окончательного дизайна полного проекта в первый год планировалось провести три пилотных исследования. Первый пилот предусматривал генотипирование 180 человек из 3 основных географических групп с низким покрытием (2×). Во втором пилоте геномы двух нуклеарных семей (оба родителя и взрослый ребёнок) должны были быть секвенированы с глубоким покрытием (20× на геном). Третий пилот включал секвенирование кодирующих регионов (экзонов) 1000 генов у 1000 человек с глубоким покрытием (20×)^[14]^[15].

Оценивалось, что проект обошёлся бы более чем в 500 миллионов долларов при использовании стандартных технологий секвенирования ДНК. Применение новых технологий (например, Solexa, 454, SOLiD) позволило снизить ожидаемые затраты до 30–50 миллионов долларов. Основную поддержку оказали Институт Сэнгера Wellcome Trust в Хинктоне (Англия), Пекинский институт геномики, Шэньчжэнь (BGI Shenzhen, Китай) и NHGRI, входящий в состав Национальных институтов здравоохранения США (NIH).^[14]

В соответствии с принципами Форт-Лодердейла^[16]. все данные секвенирования геномов (включая варианты) свободно доступны по мере выполнения проекта и могут быть загружены через ftp с сайта проекта 1000 геномов^[17].

Образцы человеческих геномов

В соответствии с целями проекта, образцы выбирались для обеспечения мощности в популяциях, где проводятся ассоциативные исследования распространённых заболеваний. Кроме того, для каталога не требовалась медицинская или фенотипическая информация, поскольку он задумывался как базовый ресурс по вариабельности человека^[15].

В пилотных исследованиях секвенировались образцы человеческих геномов из коллекции . Было полезно сосредоточиться на образцах, для которых доступны дополнительные данные (например, последовательности ENCODE, генотипы по всему геному, фосмидные концы, анализы структурных вариаций и экспрессия генов), чтобы сравнить результаты с другими проектами.^[15]

Соблюдая строгие этические процедуры, проект 1000 геномов использовал образцы от добровольных доноров. В исследование были включены следующие популяции: йоруба в Ибадане (YRI, Нигерия); японцы в Токио (JPT); китайцы в Пекине (CHB); жители Юта с предками из северной и западной Европы (CEU); лухья в Вебуйе, Кения (LWK); масаи в Киньява, Кения (MKK); тосканцы в Италии (TSI); перуанцы в Лиме, Перу (PEL); гуджаратцы в Хьюстоне (GIH); китайцы в агломерации Денвер (CHD); люди мексиканского происхождения в Лос-Анджелесе (MXL); и люди африканского происхождения на юго-западе США (ASW).^[14]

ID	Место	Популяция	Примечания
ASW	США*	Африканское происхождение на юго-западе США	[2]
ACB	Барбадос*	Афрокарибцы на Барбадосе	[3]
BEB	Бангладеш	Бенгальцы в Бангладеш	[4]
GBR	Великобритания	Британцы из Англии и Шотландии	[5]
CDX	Китай	Дай в Сишуанбаньна, Китай	[6]
CLM	Колумбия	Колумбийцы в Медельин, Колумбия	[7]
ESN	Нигерия	Эсан в Нигерии	[8]
FIN	Финляндия	Финны в Финляндии	[9]
GWD	Гамбия	Гамбийцы в Западном округе — мандинка	[10]
GIH	США*	Гуджаратцы — индийцы в Хьюстон, Техас, США	[11]
CHB	Китай	Ханьцы в Пекин, Китай	[12]
CHS	Китай	Ханьцы (южный Китай)	[13]
IBS	Испания	Иберийцы в Испании	[14]
ITU	Великобритания*	Индийцы-телугу в Великобритании	[15]
JPT	Япония	Японцы в Токио, Япония	[16]
KHV	Вьетнам	Кин в Хошимин, Вьетнам	[17]
LWK	Кения	Лухья в Вебуйе, Кения	[18]
MSL	Сьерра-Леоне	Менде в Сьерра-Леоне	[19]
MXL	США*	Мексиканское происхождение в Лос-Анджелес, Калифорния, США	[20]
PEL	Перу	Перуанцы в Лима, Перу	[21]
PUR	Пуэрто-Рико	Пуэрториканцы в Пуэрто-Рико	[22]
PJL	Пакистан	Пенджабцы в Лахор, Пакистан	[23]
STU	Великобритания*	Тамилы Шри-Ланки в Великобритании	[24]
TSI	Италия	Тосканцы в Италии	[25]
YRI	Нигерия	Йоруба в Ибадан, Нигерия	[26]
CEU	США*	Жители Юта с предками из северной и западной Европы из коллекции CEPH	[27]

* Популяция, собранная в диаспоре

Встреча сообщества

Данные, полученные в рамках проекта 1000 геномов, широко используются генетическим сообществом, а первая статья по проекту стала одной из самых цитируемых в биологии.^[18] Для поддержки пользователей в июле 2012 года была проведена встреча сообщества, на которой обсуждались ключевые открытия проекта, их влияние на популяционную генетику и исследования заболеваний человека, а также были представлены обзоры других крупных проектов секвенирования^[19].

Пилотная фаза

Пилотная фаза включала три проекта:

секвенирование всего генома с низким покрытием у 179 человек из 4 популяций
секвенирование с высоким покрытием двух трио (мать-отец-ребёнок)
таргетное секвенирование экзонов у 697 человек из 7 популяций

Было установлено, что в среднем каждый человек несёт около 250–300 вариантов с потерей функции в аннотированных генах и 50–100 вариантов, ранее связанных с наследственными заболеваниями. По данным двух трио, оценено, что частота новых (de novo) мутаций в зародышевой линии составляет примерно 10⁻⁸ на основание на поколение^[1].

1000 Genomes — глубокий каталог генетического разнообразия человека — официальный сайт
Международный проект HapMap Архивировано 16 апреля 2014 года. — официальный сайт
Информация о проекте «Геном человека»

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

1000 геномов

Предпосылки

Естественный отбор

Описание проекта

Цели

Структура

Образцы человеческих геномов

Встреча сообщества

Результаты проекта

Пилотная фаза

См. также

Примечания

Ссылки

Категории