1000 геномов
1000 геномов (1KGP) — это международный исследовательский проект, целью которого было создание на тот момент самого подробного каталога генетического разнообразия человека. Учёные планировали секвенировать геномы как минимум одной тысячи анонимных здоровых участников из различных этнических групп в течение трёх лет, используя достижения в области новых технологий секвенирования. В 2010 году проект завершил пилотную фазу, подробно описанную в публикации журнала Nature[1]. В 2012 году секвенирование 1092 геномов было анонсировано в публикации Nature[2]. В 2015 году две статьи в Nature сообщили о результатах, завершении проекта и перспективах дальнейших исследований[3][4].
Были выявлены многие редкие варианты, ограниченные близкородственными группами, и проанализированы восемь классов структурных вариаций[5].
Проект объединил междисциплинарные исследовательские группы из институтов по всему миру, включая Китай, Италию, Японию, Кению, Нигерию, Перу, Великобританию и США, которые внесли вклад в формирование набора последовательностей и уточнённой карты генома человека, свободно доступной через публичные базы данных для научного сообщества и широкой общественности[2].
После завершения проекта был создан Международный ресурс образцов генома (International Genome Sample Resource) для хранения и расширения набора данных[6].
Предпосылки
После завершения проекта «Геном человека» достижения в области популяционной генетики человека и сравнительной геномики позволили глубже понять генетическое разнообразие[7]. Формировалось понимание структурных вариаций (инсерции/делеции (инделы), вариации числа копий (CNV), Ретроэлементы), однонуклеотидных полиморфизмов (SNP), а также естественного отбора.[8][9][10][11]
Разнообразие генетических вариантов человека, таких как инделы, продолжало выявляться, а изучение вариаций человеческого генома активно развивалось.
Проект также был нацелен на предоставление данных, позволяющих исследовать влияние естественного отбора на различия между популяциями. Модели ДНК-полиморфизмов могут использоваться для надёжного выявления следов отбора и способствовать идентификации генов, которые могут лежать в основе различий в устойчивости к заболеваниям или метаболизме лекарств[12].[13] Такие данные могут улучшить понимание фенотипических вариаций, генетических заболеваний и менделевского наследования и их влияния на выживание и/или воспроизводство различных человеческих популяций.
Описание проекта
Проект «1000 геномов» был задуман для преодоления разрыва в знаниях между редкими генетическими вариантами, оказывающими выраженное влияние преимущественно на простые признаки (например, Муковисцидоз, Болезнь Хантингтона), и распространёнными вариантами, оказывающими слабое влияние и вовлечёнными в сложные признаки (например, когнитивные функции, диабет, сердечные заболевания)[14].
Основной целью проекта было создание полного и детального каталога генетических вариантов человека, который может быть использован для ассоциативных исследований, связывающих генетические вариации с заболеваниями. Консорциум стремился выявить более 95 % вариантов (например, SNP, CNV, инделы) с минорной аллельной частотой до 1 % по всему геному и 0,1–0,5 % в генах, а также оценить частоты вариантов в популяциях, гаплотипные фоны и паттерны дисбаланса сцепления аллелей[15].
Второстепенные задачи включали поддержку лучшего выбора SNP и проб для платформ генотипирования в будущих исследованиях и совершенствование референсной последовательности человека. Ожидалось, что завершённая база данных станет полезным инструментом для изучения регионов под отбором, вариаций в различных популяциях и понимания процессов мутаций и рекомбинации[15].
Геном человека состоит примерно из 3 миллиардов пар оснований ДНК и, по оценкам, содержит около 20 000 белок-кодирующих генов. При проектировании исследования консорциуму необходимо было решить ряд критических вопросов, касающихся метрик проекта, таких как технологические вызовы, стандарты качества данных и глубина покрытия последовательностей[15].
В течение следующих трёх лет учёные из Института Сэнгера, BGI Shenzhen и Национального института исследований генома человека (NHGRI) планировали секвенировать не менее 1000 человеческих геномов. Из-за большого объёма необходимых данных набор участников постоянно расширялся[14].
Почти 10 миллиардов оснований планировалось секвенировать ежедневно в течение двухлетней производственной фазы, что эквивалентно более чем двум человеческим геномам каждые 24 часа. Итоговый набор данных должен был составить 6 триллионов оснований ДНК, что в 60 раз превышало объём данных, опубликованных в ДНК-базах на тот момент[14].
Для определения окончательного дизайна полного проекта в первый год планировалось провести три пилотных исследования. Первый пилот предусматривал генотипирование 180 человек из 3 основных географических групп с низким покрытием (2×). Во втором пилоте геномы двух нуклеарных семей (оба родителя и взрослый ребёнок) должны были быть секвенированы с глубоким покрытием (20× на геном). Третий пилот включал секвенирование кодирующих регионов (экзонов) 1000 генов у 1000 человек с глубоким покрытием (20×)[14][15].
Оценивалось, что проект обошёлся бы более чем в 500 миллионов долларов при использовании стандартных технологий секвенирования ДНК. Применение новых технологий (например, Solexa, 454, SOLiD) позволило снизить ожидаемые затраты до 30–50 миллионов долларов. Основную поддержку оказали Институт Сэнгера Wellcome Trust в Хинктоне (Англия), Пекинский институт геномики, Шэньчжэнь (BGI Shenzhen, Китай) и NHGRI, входящий в состав Национальных институтов здравоохранения США (NIH).[14]
В соответствии с принципами Форт-Лодердейла[16]. все данные секвенирования геномов (включая варианты) свободно доступны по мере выполнения проекта и могут быть загружены через ftp с сайта проекта 1000 геномов[17].
В соответствии с целями проекта, образцы выбирались для обеспечения мощности в популяциях, где проводятся ассоциативные исследования распространённых заболеваний. Кроме того, для каталога не требовалась медицинская или фенотипическая информация, поскольку он задумывался как базовый ресурс по вариабельности человека[15].
В пилотных исследованиях секвенировались образцы человеческих геномов из коллекции . Было полезно сосредоточиться на образцах, для которых доступны дополнительные данные (например, последовательности ENCODE, генотипы по всему геному, фосмидные концы, анализы структурных вариаций и экспрессия генов), чтобы сравнить результаты с другими проектами.[15]
Соблюдая строгие этические процедуры, проект 1000 геномов использовал образцы от добровольных доноров. В исследование были включены следующие популяции: йоруба в Ибадане (YRI, Нигерия); японцы в Токио (JPT); китайцы в Пекине (CHB); жители Юта с предками из северной и западной Европы (CEU); лухья в Вебуйе, Кения (LWK); масаи в Киньява, Кения (MKK); тосканцы в Италии (TSI); перуанцы в Лиме, Перу (PEL); гуджаратцы в Хьюстоне (GIH); китайцы в агломерации Денвер (CHD); люди мексиканского происхождения в Лос-Анджелесе (MXL); и люди африканского происхождения на юго-западе США (ASW).[14]
| ID | Место | Популяция | Примечания |
|---|---|---|---|
| ASW | США* | Африканское происхождение на юго-западе США | [2] |
| ACB | Барбадос* | Афрокарибцы на Барбадосе | [3] |
| BEB | Бангладеш | Бенгальцы в Бангладеш | [4] |
| GBR | Великобритания | Британцы из Англии и Шотландии | [5] |
| CDX | Китай | Дай в Сишуанбаньна, Китай | [6] |
| CLM | Колумбия | Колумбийцы в Медельин, Колумбия | [7] |
| ESN | Нигерия | Эсан в Нигерии | [8] |
| FIN | Финляндия | Финны в Финляндии | [9] |
| GWD | Гамбия | Гамбийцы в Западном округе — мандинка | [10] |
| GIH | США* | Гуджаратцы — индийцы в Хьюстон, Техас, США | [11] |
| CHB | Китай | Ханьцы в Пекин, Китай | [12] |
| CHS | Китай | Ханьцы (южный Китай) | [13] |
| IBS | Испания | Иберийцы в Испании | [14] |
| ITU | Великобритания* | Индийцы-телугу в Великобритании | [15] |
| JPT | Япония | Японцы в Токио, Япония | [16] |
| KHV | Вьетнам | Кин в Хошимин, Вьетнам | [17] |
| LWK | Кения | Лухья в Вебуйе, Кения | [18] |
| MSL | Сьерра-Леоне | Менде в Сьерра-Леоне | [19] |
| MXL | США* | Мексиканское происхождение в Лос-Анджелес, Калифорния, США | [20] |
| PEL | Перу | Перуанцы в Лима, Перу | [21] |
| PUR | Пуэрто-Рико | Пуэрториканцы в Пуэрто-Рико | [22] |
| PJL | Пакистан | Пенджабцы в Лахор, Пакистан | [23] |
| STU | Великобритания* | Тамилы Шри-Ланки в Великобритании | [24] |
| TSI | Италия | Тосканцы в Италии | [25] |
| YRI | Нигерия | Йоруба в Ибадан, Нигерия | [26] |
| CEU | США* | Жители Юта с предками из северной и западной Европы из коллекции CEPH | [27] |
* Популяция, собранная в диаспоре
Данные, полученные в рамках проекта 1000 геномов, широко используются генетическим сообществом, а первая статья по проекту стала одной из самых цитируемых в биологии.[18] Для поддержки пользователей в июле 2012 года была проведена встреча сообщества, на которой обсуждались ключевые открытия проекта, их влияние на популяционную генетику и исследования заболеваний человека, а также были представлены обзоры других крупных проектов секвенирования[19].
Результаты проекта
Пилотная фаза включала три проекта:
- секвенирование всего генома с низким покрытием у 179 человек из 4 популяций
- секвенирование с высоким покрытием двух трио (мать-отец-ребёнок)
- таргетное секвенирование экзонов у 697 человек из 7 популяций
Было установлено, что в среднем каждый человек несёт около 250–300 вариантов с потерей функции в аннотированных генах и 50–100 вариантов, ранее связанных с наследственными заболеваниями. По данным двух трио, оценено, что частота новых (de novo) мутаций в зародышевой линии составляет примерно 10−8 на основание на поколение[1].
Примечания
Ссылки
- 1000 Genomes — глубокий каталог генетического разнообразия человека — официальный сайт
- Международный проект HapMap Архивировано 16 апреля 2014 года. — официальный сайт
- Информация о проекте «Геном человека»