Биоинформатика биоразнообразия

Биоинформатика биоразнообразия (англ. Biodiversity informatics) — это применение методов информатики к информации о биоразнообразии, такой как таксономия, биогеография или экология. Она определяется как применение технологий информационных технологий к управлению, алгоритмическому исследованию, анализу и интерпретации первичных данных о жизни, в особенности на уровне организации видов[1]. Современные компьютерные методы позволяют по-новому рассматривать и анализировать уже имеющуюся информацию, а также прогнозировать будущие ситуации (см. моделирование экологических ниш). Термин «биоинформатика биоразнообразия» был введён лишь около 1992 года, но с быстрым ростом объёмов данных стал полезен во множестве исследований и приложений, таких как создание таксономических баз данных или геоинформационных систем. Биоинформатика биоразнообразия противопоставляется «биоинформатике», которая часто используется как синоним компьютерной обработки данных в специализированной области молекулярной биологии.

Обзор

Биоинформатика биоразнообразия (отличается, но связана с биоинформатикой) — это применение методов информационных технологий к задачам организации, доступа, визуализации и анализа первичных данных о биоразнообразии. К первичным данным о биоразнообразии относятся названия, наблюдения и учётные записи образцов, а также генетические и морфологические данные, связанные с образцом. Биоинформатика биоразнообразия также может включать управление информацией о неназванных таксонах, например, полученной в результате экологического отбора и секвенирования смешанных полевых образцов. Термин «биоинформатика биоразнообразия» также используется для обозначения вычислительных задач, специфичных для названий биологических объектов, таких как разработка алгоритмов для работы с вариантами представления идентификаторов (например, названий видов и авторов), а также с множественными схемами классификации, в которых эти объекты могут находиться в зависимости от предпочтений различных специалистов, а также синтаксиса и семантики, с помощью которых содержимое таксономических баз данных может быть сделано доступным для машинных запросов и совместимым для целей биоинформатики биоразнообразия.

История дисциплины

Биоинформатика биоразнообразия может считаться начавшейся с создания первых компьютеризированных таксономических баз данных в начале 1970-х годов и развивалась через последующую разработку распределённых поисковых инструментов к концу 1990-х годов, включая Species Analyst из Канзасского университета, Североамериканскую сеть информации о биоразнообразии (NABIN), CONABIO в Мексике, INBio в Коста-Рике и другие[2], создание Глобального информационного центра по биоразнообразию (GBIF) в 2001 году и параллельную разработку различных инструментов моделирования ниш и других средств для работы с оцифрованными данными о биоразнообразии с середины 1980-х годов. В сентябре 2000 года американский журнал Science посвятил специальный выпуск теме «Биоинформатика для биоразнообразия»[3], журнал Biodiversity Informatics начал выходить в 2004 году, а несколько международных конференций в 2000-х годах объединили специалистов по биоинформатике биоразнообразия, включая конференцию London e-Biosphere в июне 2009 года. Приложение к журналу BMC Bioinformatics, опубликованное в ноябре 2009 года, также посвящено вопросам биоинформатики биоразнообразия.

История термина

Согласно переписке, воспроизведённой Вальтером Берендсоном[4], термин «Biodiversity Informatics» был введён Джоном Уайтином в 1992 году для обозначения деятельности организации Canadian Biodiversity Informatics Consortium, занимавшейся объединением базовой информации о биоразнообразии с экологической экономикой и геопространственной информацией в виде GPS и ГИС. Впоследствии термин утратил обязательную связь с GPS/ГИС и стал ассоциироваться с компьютерным управлением любыми аспектами информации о биоразнообразии.

Цифровая таксономия (систематика)

Глобальный список всех видов

Одной из основных целей биоинформатики биоразнообразия является создание полного мастер-списка признанных на данный момент видов мира. Эта цель в значительной степени достигнута проектом Catalogue of Life, который включает более 2 миллионов видов в своём ежегодном списке за 2022 год[5]. Аналогичная работа по ископаемым таксонам ведётся в базе данных Paleobiology Database[6], где задокументировано более 100 000 названий ископаемых видов из неизвестного общего числа.

Научные названия родов и видов как уникальные идентификаторы

Применение линеевской системы биномиальной номенклатуры для видов и униноминалов для родов и более высоких таксонов привело к множеству преимуществ, но также и к проблемам с гомонимами (одно и то же название используется для нескольких таксонов, случайно или легитимно в разных царствах), синонимами (несколько названий для одного таксона), а также с вариантами написания одного и того же названия из-за орфографических различий, мелких ошибок, различий в способе цитирования авторов и дат и др. Кроме того, названия могут меняться со временем из-за изменений таксономических взглядов (например, правильное родовое положение вида или повышение подвидового ранга до вида и наоборот), а также объём таксона может меняться в зависимости от концепций разных авторов. Одним из предложенных решений этой проблемы является использование идентификаторов Life Science Identifiers (LSID) для целей машинного обмена данными, хотя у этого подхода есть как сторонники, так и противники.

Консенсусная классификация организмов

Организмы могут классифицироваться множеством способов (см. основную статью Биологическая классификация), что создаёт проблемы для систем биоинформатики биоразнообразия, предназначенных для включения одной или нескольких классификаций в зависимости от нужд пользователей или для ориентации их на единую «предпочтительную» систему. Возможно, вопрос о возможности создания единой консенсусной системы классификации остаётся открытым, однако проект Catalogue of Life инициировал работу в этом направлении[7], которая была продолжена опубликованной в 2015 году системой, предложенной М. Руджеро и соавторами[8].

Карты биоразнообразия

undefined

Карты биоразнообразия предоставляют картографическое представление пространственных данных о биоразнообразии[9]. Эти данные могут использоваться совместно с чек-листами видов для содействия усилиям по сохранению биоразнообразия. Карты биоразнообразия помогают выявлять закономерности распределения видов и изменения ареалов. Это может отражать утрату биоразнообразия, деградацию местообитаний или изменения в видовом составе. В сочетании с данными об урбанизации карты могут информировать управление землёй, моделируя сценарии, которые могут повлиять на биоразнообразие.

Карты биоразнообразия могут создаваться различными способами: традиционно ареальные карты рисовались вручную на основе литературных данных, но всё чаще используются крупномасштабные данные, например, из проектов гражданская наука (например, iNaturalist) и оцифрованных музейных коллекций (например, VertNet). Инструменты ГИС, такие как ArcGIS или пакеты R, например dismo, могут специально использоваться для моделирования распространения видов (моделирования экологических ниш) и даже прогнозирования влияния экологических изменений на биоразнообразие[10]. GBIF, OBIS и IUCN — это крупные веб-репозитории пространственно-временных данных о видах, на которых основано множество существующих карт биоразнообразия.

Карты биоразнообразия Описание Ссылка
Map of Life (MOL) Масштабируемая веб-платформа для работы с большими данными о биоразнообразии и окружающей среде[11] mol.org
The Map of Biodiversity Importance (NatureServe) Определяет области, критически важные для предотвращения исчезновения видов на территории континентальных США https://www.natureserve.org/map-biodiversity-importance
Biodiversity Maps (National Biodiversity Data Centre) Обзор состояния знаний о распространении биоразнообразия Ирландии https://maps.biodiversityireland.ie/
Saving Nature Карты биоразнообразия, отображающие закономерности для поддержки охранных мероприятий https://savingnature.com/our-biodiversity-maps/

Мобилизация первичной информации о биоразнообразии

«Первичная» информация о биоразнообразии — это базовые данные о встречаемости и разнообразии видов (или любых распознаваемых таксонов), обычно в сочетании с информацией об их распространении в пространстве, времени или обоих измерениях. Такая информация может быть представлена в виде сохранённых образцов и сопутствующих данных, например, собранных в естественнонаучных коллекциях музеев и гербариев, или в виде наблюдательных записей, например, из формальных фаунистических или флористических обследований, проводимых профессиональными биологами и студентами, а также любительских и других запланированных или незапланированных наблюдений, включая всё чаще попадающие в сферу гражданской науки. Обеспечение онлайн-доступа к этой огромной коллекции разнородных первичных данных в едином цифровом виде — ключевая функция биоинформатики биоразнообразия, лежащая в основе региональных и глобальных сетей данных о биоразнообразии, примерами которых являются OBIS и GBIF.

В качестве вторичного источника данных о биоразнообразии соответствующая научная литература может быть проанализирована как вручную, так и (потенциально) с помощью специализированных алгоритмов информационного поиска для извлечения релевантной первичной информации о биоразнообразии, представленной там иногда в агрегированном/сводном виде, но часто как первичные наблюдения в повествовательной или табличной форме. Элементы такой деятельности (например, извлечение ключевых таксономических идентификаторов, присвоение ключевых слов/индексных терминов и др.) на более высоком уровне практиковались в течение многих лет отдельными научными базами данных и поисковыми системами. Однако для максимальной пользы биоинформатики биоразнообразия сами первичные данные о встречаемости должны быть по возможности извлечены и представлены в стандартизированной форме; например, проекты Plazi и INOTAXA преобразуют таксономическую литературу в форматы XML, первый — с использованием TaxonX-XML[12], второй — с использованием формата taXMLit. Библиотека наследия биоразнообразия также добилась значительного прогресса в оцифровке значительных объёмов литературы по таксономии, находящейся в общественном достоянии, которая затем подвергается оптическому распознаванию символов (OCR) для дальнейшей обработки с помощью инструментов биоинформатики биоразнообразия.

Стандарты и протоколы

Как и в других дисциплинах, связанных с данными, биоинформатика биоразнообразия выигрывает от внедрения соответствующих стандартов и протоколов для поддержки передачи информации между машинами и обеспечения совместимости данных в своей области. Примеры соответствующих стандартов включают Darwin Core — XML-схему для данных о коллекциях и наблюдениях, разработанную с 1998 года, а также её расширения, схему передачи таксономических концепций (Taxonomic Concept Transfer Schema)[13], стандарты для структурированных описательных данных[14], и Access to Biological Collection Data (ABCD)[15]; а также протоколы извлечения и передачи данных, такие как DiGIR (в настоящее время в основном устаревший) и TAPIR (TDWG Access Protocol for Information Retrieval)[16]. Многие из этих стандартов и протоколов в настоящее время поддерживаются и развиваются организацией Biodiversity Information Standards (TDWG).

Современные направления деятельности

На конференции e-Biosphere 2009 в Великобритании[17] были выделены следующие темы, отражающие широкий спектр современных направлений деятельности в биоинформатике биоразнообразия и возможные категории:

  • Применение: охрана природы / сельское хозяйство / рыболовство / промышленность / лесное хозяйство
  • Применение: инвазивные чужеродные виды
  • Применение: систематическая и эволюционная биология
  • Применение: таксономия и системы идентификации
  • Новые инструменты, сервисы и стандарты для управления и доступа к данным
    • Новые инструменты моделирования
    • Новые инструменты интеграции данных
    • Новые подходы к инфраструктуре биоразнообразия
    • Новые подходы к идентификации видов
    • Новые подходы к картированию биоразнообразия
  • Национальные и региональные базы данных и сети по биоразнообразию

В результате постконференционного семинара ключевых специалистов, играющих значительную роль в биоинформатике биоразнообразия, была принята резолюция, подчёркивающая, среди прочего, необходимость создания долговечных глобальных реестров ресурсов, лежащих в основе биоинформатики биоразнообразия (например, репозиториев, коллекций); завершения построения прочной таксономической инфраструктуры; и создания онтологий для данных о биоразнообразии[18].

Примеры проектов

Глобальные:

  • GBIF и OBIS (для морских видов)
  • Species 2000, ITIS (Integrated Taxonomic Information System) и Catalogue of Life
  • Global Names
  • EOL, проект Encyclopedia of Life
  • Проект Consortium for the Barcode of Life
  • Проект Map of Life
  • Проект Reptile Database
  • Проект AmphibiaWeb
  • uBio Universal Biological Indexer and Organizer, лаборатория морской биологии Вудс-Хоул
  • Index to Organism Names (ION) от Clarivate Analytics, предоставляющий доступ к научным названиям таксонов из многочисленных журналов, индексируемых в Zoological Record
  • Interim Register of Marine and Nonmarine Genera (IRMNG)
  • ZooBank, реестр номенклатурных актов и соответствующей систематической литературы по зоологии
  • Index Nominum Genericorum, свод родовых названий для организмов, охватываемых Международный кодекс ботанической номенклатуры, поддерживается Смитсоновским институтом (США)
  • International Plant Names Index
  • MycoBank, документирующий новые названия и комбинации для грибов
  • List of Prokaryotic names with Standing in Nomenclature (LPSN) — официальный реестр валидных названий для бактерий и архей, регулируемый Международный кодекс номенклатуры бактерий
  • Библиотека наследия биоразнообразия — оцифровка литературы по биоразнообразию
  • Wikispecies, открытая (редактируемая сообществом) база таксономической информации, сопутствующий проект Википедии
  • TaxonConcept.org, проект Linked Data, соединяющий разрозненные базы данных о видах
  • Instituto de Ciencias Naturales. Universidad Nacional de Colombia. Virtual Collections and Biodiversity Informatics Unit
  • ANTABIF. Antarctic Biodiversity Information Facility — свободный и открытый доступ к данным о биоразнообразии Антарктики в духе Антарктического договора
  • Genesys, база данных генетических ресурсов растений, поддерживаемая национальными, региональными и международными генбанками
  • VertNet, доступ к первичным данным о позвоночных из мировых наборов данных

Региональные и национальные проекты:

  • Fauna Europaea
  • Atlas of Living Australia
  • Pan-European Species directories Infrastructure (PESI)
  • Symbiota
  • iDigBio, Integrated Digitized Biocollections (США)
  • i4Life project
  • Sistema de Información sobre Biodiversidad de Colombia
  • India Biodiversity Portal (IBP)
  • Bhutan Biodiversity Portal (BBP)
  • Weed Identification and Knowledge in the Western Indian Ocean (WIKWIO)
  • LifeWatch, предлагаемый ESFRI как общеевропейская исследовательская (e-)инфраструктура для поддержки исследований и политики в области биоразнообразия
  • Vermont Atlas of Life

Список более 600 текущих проектов, связанных с биоинформатикой биоразнообразия, можно найти в базе данных TDWG «Biodiversity Information Projects of the World»[19].

См. также

Примечания

  1. Soberón, J., & Peterson, A. T. (2004). Biodiversity informatics: Managing and applying primary biodiversity data. Philosophical Transactions of the Royal Society B: Biological Sciences, 359(1444), 689—698.
  2. Krishtalka L, Humphrey PS (2000). “Can Natural History Museums Capture the Future?”. BioScience. 50 (7): 611—617. DOI:10.1641/0006-3568(2000)050[0611:CNHMCT]2.0.CO;2. HDL:1808/16508.
  3. “Bioinformatics for Biodiversity?”. Science. 289: 2229—2440. 2000.
  4. "Biodiversity Informatics", The Term. Дата обращения: 6 августа 2009.
  5. Catalogue of Life - 2016 Annual Checklist: The 2016 Annual Checklist. www.catalogueoflife.org. Дата обращения: 8 сентября 2021.
  6. the Paleobiology Database. Дата обращения: 6 августа 2009.
  7. Towards a management hierarchy (classification) for the Catalogue of Life. Draft Discussion Document by Dr. Dennis P. Gordon, May 2009. Дата обращения: 6 августа 2009. Архивировано 8 августа 2009 года.
  8. Ruggiero, M.A.; Gordon, D.P.; Orrell, T.M.; Bailly, N.; Bourgoin, T.; Brusca, R.C.; et al. (2015). “A higher level classification of all living organisms”. PLOS ONE. 10 (4). Bibcode:2015PLoSO..1019248R. DOI:10.1371/journal.pone.0119248. PMC 4418965. PMID 25923521.
  9. Biodiversity Maps: Transforming Data into Visual Tools into Meaningful Action for Biodiversity Conservation - (амер. англ.) (30 ноября 2016). Дата обращения: 5 мая 2022.
  10. Elith, Jane & Franklin, Janet (2013), Species Distribution Modeling, Elsevier, с. 692–705, ISBN 978-0-12-384720-1, doi:10.1016/b978-0-12-384719-5.00318-x, <https://linkinghub.elsevier.com/retrieve/pii/B978012384719500318X>. Проверено 5 мая 2022. 
  11. Jetz, Walter; McPherson, Jana M.; Guralnick, Robert P. (2012). “Integrating biodiversity distribution knowledge: toward a global map of life”. Trends in Ecology & Evolution [англ.]. 27 (3): 151—159. Bibcode:2012TEcoE..27..151J. DOI:10.1016/j.tree.2011.09.007. PMID 22019413.
  12. TaxonX (англ.). SourceForge (22 февраля 2019). Дата обращения: 8 сентября 2021.
  13. Taxonomic Concept Transfer Schema (TCS). Biodiversity Information Standards (TDWG).
  14. Structured Descriptive Data. Biodiversity Information Standards (TDWG).
  15. Access to Biological Collection Data (ABCD). Biodiversity Information Standards (TDWG).
  16. GitHub - tdwg/tapir: TDWG Access Protocol for Information Retrieval (TAPIR) (англ.). GitHub (16 июня 2020). Дата обращения: 8 сентября 2021.
  17. Home. e-biosphere09.org.
  18. Archived copy. www.e-biosphere09.org. Дата обращения: 12 января 2022. Архивировано 26 февраля 2012 года.
  19. TDWG: Biodiversity Information Projects of the World. www.tdwg.org. Дата обращения: 12 января 2022. Архивировано 14 июля 2009 года.

Литература

Ссылки

Категории