Hapmap
HapMap (англ. International HapMap Project) — международная организация, целью которой было создание карты гаплотипов (HapMap) генома человека для описания общих закономерностей генетической изменчивости у людей. HapMap используется для поиска генетических вариантов, влияющих на здоровье, заболевания, а также на реакцию на лекарственные препараты и факторы окружающей среды. Вся информация, полученная в ходе проекта, свободно доступна для научных исследований.
Международный проект HapMap был совместной работой исследователей из академических центров, некоммерческих биомедицинских организаций и частных компаний из Канады, Китая (включая Гонконг), Японии, Нигерии, Великобритании и США. Официальное начало проекта состоялось на встрече 27—29 октября 2002 года, и предполагалось, что работа займёт около трёх лет. Проект состоял из трёх фаз; полные данные первой фазы были опубликованы 27 октября 2005 года[1]. Анализ данных второй фазы был опубликован в октябре 2007 года[2]. Данные третьей фазы были опубликованы весной 2009 года, а итоговые результаты — в сентябре 2010 года[3].
Предпосылки
В отличие от редких менделевских болезней, в развитии и течении распространённых заболеваний (таких как диабет, рак, болезни сердца, инсульт, депрессия и астма), а также в индивидуальной реакции на фармакологические препараты, важную роль играют сочетания различных генов и факторов окружающей среды[4]. Для поиска генетических факторов, связанных с такими заболеваниями, теоретически можно провести геномное ассоциативное исследование: получить полную последовательность ДНК у нескольких людей (с заболеванием и без него) и сравнить различия между двумя группами. На момент запуска проекта такой подход был невозможен из-за высокой стоимости полного секвенирования генома. Проект HapMap предложил альтернативный путь.
Хотя у любых двух неродственных людей совпадает около 99,5 % последовательности ДНК, их геномы различаются в определённых нуклеотидных позициях. Такие участки называются однонуклеотидными полиморфизмами (SNP), а каждая возможная форма гена — аллель[5]. Проект HapMap фокусируется только на распространённых SNP, где каждая аллель встречается не менее чем у 1 % популяции.
У каждого человека есть две копии всех хромосом, кроме половых хромосом у мужчин. Для каждого SNP комбинация аллелей называется генотип. Генотипирование — это определение генотипа человека в конкретной позиции. В проекте HapMap была выбрана выборка из 269 человек, определено несколько миллионов SNP, проведено генотипирование этих людей по выбранным SNP и опубликованы результаты[6].
Аллели соседних SNP на одной хромосоме коррелированы. Если известен аллель одного SNP у конкретного человека, часто можно предсказать аллели соседних SNP — этот процесс называется импутация генотипа[7]. Это связано с тем, что каждый SNP возник в эволюционной истории как отдельная точечная мутация и передавался по наследству вместе с окружающими его более ранними мутациями. SNP, разделённые большим расстоянием на хромосоме, обычно слабо коррелированы, поскольку в каждом поколении происходит генетическая рекомбинация, смешивающая аллельные последовательности двух хромосом. Последовательность последовательных аллелей на одной хромосоме называется гаплотип[8].
Для поиска генетических факторов, связанных с определённым заболеванием, сначала определяют интересующую область генома (например, по результатам наследственных исследований). В этой области по данным HapMap выбирают набор маркерных SNP, которые хорошо коррелируют со всеми остальными SNP в регионе. Используя их, с помощью импутации генотипа можно определить остальные SNP и, соответственно, весь гаплотип с высокой достоверностью. Затем определяют генотипы по этим маркерным SNP у группы людей с заболеванием и без него. Сравнивая две группы, выявляют вероятные локализации и гаплотипы, связанные с заболеванием.
Использованные образцы
Гаплотипы в целом общие для разных популяций, но их частота может сильно различаться. Для HapMap были выбраны четыре популяции: 30 трио взрослых с обоими родителями из народа Йоруба из Ибадана, Нигерия (YRI), 30 трио жителей Юты североевропейского и западноевропейского происхождения (CEU), 44 неродственных японца из Токио, Япония (JPT) и 45 неродственных ханьцев из Пекина, Китай (CHB). Хотя выявленные гаплотипы полезны для изучения многих других популяций, параллельно проводятся исследования по включению дополнительных групп.
Все образцы были собраны с учётом общественного обсуждения и получения информированного согласия. Процесс общественного обсуждения был направлен на выявление и учёт культурных особенностей, а также на предоставление сообществам возможности влиять на процедуры получения согласия и сбора образцов[9].
В третьей фазе были собраны данные по 11 глобальным группам происхождения: ASW (африканское происхождение на юго-западе США); CEU (жители Юты северного и западного европейского происхождения из коллекции CEPH); CHB (ханьцы из Пекина, Китай); CHD (китайцы из Денвера, Колорадо); GIH (гуджаратцы из Хьюстона, Техас); JPT (японцы из Токио, Япония); LWK (луйя из Вебуйе, Кения); MEX (мексиканское происхождение в Лос-Анджелесе, Калифорния); MKK (маасаи из Киньява, Кения); TSI (тосканцы из Италии); YRI (йоруба из Ибадана, Нигерия)[10].
| Фаза | ID | Место | Популяция |
|---|---|---|---|
| I/II | CEU | США | Жители Юты северного и западного европейского происхождения из коллекции CEPH |
| I/II | CHB | Китай | Ханьцы из Пекина, Китай |
| I/II | JPT | Япония | Японцы из Токио, Япония |
| I/II | YRI | Нигерия | Йоруба из Ибадана, Нигерия |
| III | ASW | США | Африканское происхождение на юго-западе США |
| III | CHD | США | Китайцы из Денвера, Колорадо, США |
| III | GIH | США | Гуджаратцы из Хьюстона, Техас, США |
| III | LWK | Кения | Луйя из Вебуйе, Кения |
| III | MKK | Кения | Маасаи из Киньява, Кения |
| III | MXL | США | Мексиканское происхождение в Лос-Анджелесе, Калифорния, США |
| III | TSI | Италия | Тосканцы из Италии |
Также были созданы три объединённые панели, которые позволяют лучше выявлять SNP у групп, не входящих в девять однородных образцов: CEU+TSI (жители Юты северного и западного европейского происхождения из коллекции CEPH и тосканцы из Италии); JPT+CHB (японцы из Токио и ханьцы из Пекина) и JPT+CHB+CHD (японцы из Токио, ханьцы из Пекина и китайцы из Денвера, Колорадо). Например, CEU+TSI лучше моделирует британцев Великобритании, чем только CEU[10].
Научная стратегия
В 1990-х годах полное секвенирование генома пациентов было очень дорогим. Поэтому Национальные институты здравоохранения США поддержали идею «короткого пути» — изучать только те участки генома, где у многих людей встречается вариант ДНК. Теория заключалась в том, что если основные заболевания распространены, то и вызывающие их генетические варианты также должны быть распространёнными. Естественный отбор поддерживает геном человека свободным от вариантов, вредящих здоровью до взросления, но не препятствует распространению вариантов, проявляющихся в более позднем возрасте, что позволяет им стать довольно частыми (в 2002 году Национальные институты здравоохранения США начали проект HapMap стоимостью 138 миллионов долларов для каталогизации распространённых вариантов в европейских, восточноазиатских и африканских геномах)[11].
В первой фазе генотипирование одного распространённого SNP проводилось каждые 5000 пар оснований. Всего было определено более миллиона SNP. Генотипирование выполнялось в 10 центрах с использованием пяти различных технологий. Качество генотипирования оценивалось с помощью дублированных или родственных образцов, а также периодических проверок, когда центры должны были генотипировать общие наборы SNP.
Канадскую команду возглавлял Томас Дж. Хадсон из Университета Макгилла в Монреале, она работала с хромосомами 2 и 4p. Китайскую команду возглавляли Хуаньмин Ян (Пекин и Шанхай) и Лап-Чи Цуй (Гонконг), они работали с хромосомами 3, 8p и 21. Японскую команду возглавлял Юсуке Накамура из Токийского университета, она работала с хромосомами 5, 11, 14, 15, 16, 17 и 19. Британскую команду возглавлял Дэвид Р. Бентли из Института Сэнгера, она работала с хромосомами 1, 6, 10, 13 и 20. В США было четыре центра генотипирования: команда под руководством Марк Чи и Арнольд Олифант в Illumina Inc. (Сан-Диего, хромосомы 8q, 9, 18q, 22 и X), команда Дэвид Алтшулер и Марк Дейли в Broad Institute (Кембридж, США; хромосомы 4q, 7q, 18p, Y и митохондрия), команда Ричард Гиббс в Бэйлорском колледже медицины (Хьюстон, хромосома 12) и команда Пуй-Ян Квок в Калифорнийский университет в Сан-Франциско (хромосома 7p).
Для получения достаточного количества SNP для создания карты Консорциум профинансировал крупный проект повторного секвенирования для выявления миллионов дополнительных SNP. Они были внесены в общедоступную базу данных dbSNP. В результате к августу 2006 года база содержала более 10 миллионов SNP, и более 40 % из них были известны как полиморфные. Для сравнения: в начале проекта было известно менее 3 миллионов SNP, и не более 10 % из них были полиморфными.
Во второй фазе более двух миллионов дополнительных SNP были генотипированы по всему геному Дэвидом Р. Коксом, Келли А. Фрейзер и другими в Perlegen Sciences, а 500 000 — компанией Affymetrix.
Доступ к данным
Все данные, полученные в ходе проекта, включая частоты SNP, генотипы и гаплотипы, были размещены в открытом доступе и доступны для скачивания[12]. Веб-сайт был закрыт в 2016 году, однако исходные данные по-прежнему доступны для скачивания[13]. На сайте ранее был доступен браузер генома, позволявший находить SNP в любой интересующей области, их частоты аллелей и ассоциации с соседними SNP. Также был предоставлен инструмент для определения маркерных SNP для заданного региона. Эти данные также доступны напрямую через широко используемую программу Haploview.