Биоинформатика биоразнообразия
Биоинформатика биоразнообразия (англ. Biodiversity informatics) — это применение методов информатики к информации о биоразнообразии, такой как таксономия, биогеография или экология. Она определяется как применение технологий информационных технологий к управлению, алгоритмическому исследованию, анализу и интерпретации первичных данных о жизни, в особенности на уровне организации видов[1]. Современные компьютерные методы позволяют по-новому рассматривать и анализировать уже имеющуюся информацию, а также прогнозировать будущие ситуации (см. моделирование экологических ниш). Термин «биоинформатика биоразнообразия» был введён лишь около 1992 года, но с быстрым ростом объёмов данных стал полезен во множестве исследований и приложений, таких как создание таксономических баз данных или геоинформационных систем. Биоинформатика биоразнообразия противопоставляется «биоинформатике», которая часто используется как синоним компьютерной обработки данных в специализированной области молекулярной биологии.
Обзор
Биоинформатика биоразнообразия (отличается, но связана с биоинформатикой) — это применение методов информационных технологий к задачам организации, доступа, визуализации и анализа первичных данных о биоразнообразии. К первичным данным о биоразнообразии относятся названия, наблюдения и учётные записи образцов, а также генетические и морфологические данные, связанные с образцом. Биоинформатика биоразнообразия также может включать управление информацией о неназванных таксонах, например, полученной в результате экологического отбора и секвенирования смешанных полевых образцов. Термин «биоинформатика биоразнообразия» также используется для обозначения вычислительных задач, специфичных для названий биологических объектов, таких как разработка алгоритмов для работы с вариантами представления идентификаторов (например, названий видов и авторов), а также с множественными схемами классификации, в которых эти объекты могут находиться в зависимости от предпочтений различных специалистов, а также синтаксиса и семантики, с помощью которых содержимое таксономических баз данных может быть сделано доступным для машинных запросов и совместимым для целей биоинформатики биоразнообразия.
История дисциплины
Биоинформатика биоразнообразия может считаться начавшейся с создания первых компьютеризированных таксономических баз данных в начале 1970-х годов и развивалась через последующую разработку распределённых поисковых инструментов к концу 1990-х годов, включая Species Analyst из Канзасского университета, Североамериканскую сеть информации о биоразнообразии (NABIN), CONABIO в Мексике, INBio в Коста-Рике и другие[2], создание Глобального информационного центра по биоразнообразию (GBIF) в 2001 году и параллельную разработку различных инструментов моделирования ниш и других средств для работы с оцифрованными данными о биоразнообразии с середины 1980-х годов. В сентябре 2000 года американский журнал Science посвятил специальный выпуск теме «Биоинформатика для биоразнообразия»[3], журнал Biodiversity Informatics начал выходить в 2004 году, а несколько международных конференций в 2000-х годах объединили специалистов по биоинформатике биоразнообразия, включая конференцию London e-Biosphere в июне 2009 года. Приложение к журналу BMC Bioinformatics, опубликованное в ноябре 2009 года, также посвящено вопросам биоинформатики биоразнообразия.
История термина
Согласно переписке, воспроизведённой Вальтером Берендсоном[4], термин «Biodiversity Informatics» был введён Джоном Уайтином в 1992 году для обозначения деятельности организации Canadian Biodiversity Informatics Consortium, занимавшейся объединением базовой информации о биоразнообразии с экологической экономикой и геопространственной информацией в виде GPS и ГИС. Впоследствии термин утратил обязательную связь с GPS/ГИС и стал ассоциироваться с компьютерным управлением любыми аспектами информации о биоразнообразии.
Цифровая таксономия (систематика)
Одной из основных целей биоинформатики биоразнообразия является создание полного мастер-списка признанных на данный момент видов мира. Эта цель в значительной степени достигнута проектом Catalogue of Life, который включает более 2 миллионов видов в своём ежегодном списке за 2022 год[5]. Аналогичная работа по ископаемым таксонам ведётся в базе данных Paleobiology Database[6], где задокументировано более 100 000 названий ископаемых видов из неизвестного общего числа.
Применение линеевской системы биномиальной номенклатуры для видов и униноминалов для родов и более высоких таксонов привело к множеству преимуществ, но также и к проблемам с гомонимами (одно и то же название используется для нескольких таксонов, случайно или легитимно в разных царствах), синонимами (несколько названий для одного таксона), а также с вариантами написания одного и того же названия из-за орфографических различий, мелких ошибок, различий в способе цитирования авторов и дат и др. Кроме того, названия могут меняться со временем из-за изменений таксономических взглядов (например, правильное родовое положение вида или повышение подвидового ранга до вида и наоборот), а также объём таксона может меняться в зависимости от концепций разных авторов. Одним из предложенных решений этой проблемы является использование идентификаторов Life Science Identifiers (LSID) для целей машинного обмена данными, хотя у этого подхода есть как сторонники, так и противники.
Организмы могут классифицироваться множеством способов (см. основную статью Биологическая классификация), что создаёт проблемы для систем биоинформатики биоразнообразия, предназначенных для включения одной или нескольких классификаций в зависимости от нужд пользователей или для ориентации их на единую «предпочтительную» систему. Возможно, вопрос о возможности создания единой консенсусной системы классификации остаётся открытым, однако проект Catalogue of Life инициировал работу в этом направлении[7], которая была продолжена опубликованной в 2015 году системой, предложенной М. Руджеро и соавторами[8].
Карты биоразнообразия
Карты биоразнообразия предоставляют картографическое представление пространственных данных о биоразнообразии[9]. Эти данные могут использоваться совместно с чек-листами видов для содействия усилиям по сохранению биоразнообразия. Карты биоразнообразия помогают выявлять закономерности распределения видов и изменения ареалов. Это может отражать утрату биоразнообразия, деградацию местообитаний или изменения в видовом составе. В сочетании с данными об урбанизации карты могут информировать управление землёй, моделируя сценарии, которые могут повлиять на биоразнообразие.
Карты биоразнообразия могут создаваться различными способами: традиционно ареальные карты рисовались вручную на основе литературных данных, но всё чаще используются крупномасштабные данные, например, из проектов гражданская наука (например, iNaturalist) и оцифрованных музейных коллекций (например, VertNet). Инструменты ГИС, такие как ArcGIS или пакеты R, например dismo, могут специально использоваться для моделирования распространения видов (моделирования экологических ниш) и даже прогнозирования влияния экологических изменений на биоразнообразие[10]. GBIF, OBIS и IUCN — это крупные веб-репозитории пространственно-временных данных о видах, на которых основано множество существующих карт биоразнообразия.
| Карты биоразнообразия | Описание | Ссылка |
|---|---|---|
| Map of Life (MOL) | Масштабируемая веб-платформа для работы с большими данными о биоразнообразии и окружающей среде[11] | mol.org |
| The Map of Biodiversity Importance (NatureServe) | Определяет области, критически важные для предотвращения исчезновения видов на территории континентальных США | https://www.natureserve.org/map-biodiversity-importance |
| Biodiversity Maps (National Biodiversity Data Centre) | Обзор состояния знаний о распространении биоразнообразия Ирландии | https://maps.biodiversityireland.ie/ |
| Saving Nature | Карты биоразнообразия, отображающие закономерности для поддержки охранных мероприятий | https://savingnature.com/our-biodiversity-maps/ |
Мобилизация первичной информации о биоразнообразии
«Первичная» информация о биоразнообразии — это базовые данные о встречаемости и разнообразии видов (или любых распознаваемых таксонов), обычно в сочетании с информацией об их распространении в пространстве, времени или обоих измерениях. Такая информация может быть представлена в виде сохранённых образцов и сопутствующих данных, например, собранных в естественнонаучных коллекциях музеев и гербариев, или в виде наблюдательных записей, например, из формальных фаунистических или флористических обследований, проводимых профессиональными биологами и студентами, а также любительских и других запланированных или незапланированных наблюдений, включая всё чаще попадающие в сферу гражданской науки. Обеспечение онлайн-доступа к этой огромной коллекции разнородных первичных данных в едином цифровом виде — ключевая функция биоинформатики биоразнообразия, лежащая в основе региональных и глобальных сетей данных о биоразнообразии, примерами которых являются OBIS и GBIF.
В качестве вторичного источника данных о биоразнообразии соответствующая научная литература может быть проанализирована как вручную, так и (потенциально) с помощью специализированных алгоритмов информационного поиска для извлечения релевантной первичной информации о биоразнообразии, представленной там иногда в агрегированном/сводном виде, но часто как первичные наблюдения в повествовательной или табличной форме. Элементы такой деятельности (например, извлечение ключевых таксономических идентификаторов, присвоение ключевых слов/индексных терминов и др.) на более высоком уровне практиковались в течение многих лет отдельными научными базами данных и поисковыми системами. Однако для максимальной пользы биоинформатики биоразнообразия сами первичные данные о встречаемости должны быть по возможности извлечены и представлены в стандартизированной форме; например, проекты Plazi и INOTAXA преобразуют таксономическую литературу в форматы XML, первый — с использованием TaxonX-XML[12], второй — с использованием формата taXMLit. Библиотека наследия биоразнообразия также добилась значительного прогресса в оцифровке значительных объёмов литературы по таксономии, находящейся в общественном достоянии, которая затем подвергается оптическому распознаванию символов (OCR) для дальнейшей обработки с помощью инструментов биоинформатики биоразнообразия.
Стандарты и протоколы
Как и в других дисциплинах, связанных с данными, биоинформатика биоразнообразия выигрывает от внедрения соответствующих стандартов и протоколов для поддержки передачи информации между машинами и обеспечения совместимости данных в своей области. Примеры соответствующих стандартов включают Darwin Core — XML-схему для данных о коллекциях и наблюдениях, разработанную с 1998 года, а также её расширения, схему передачи таксономических концепций (Taxonomic Concept Transfer Schema)[13], стандарты для структурированных описательных данных[14], и Access to Biological Collection Data (ABCD)[15]; а также протоколы извлечения и передачи данных, такие как DiGIR (в настоящее время в основном устаревший) и TAPIR (TDWG Access Protocol for Information Retrieval)[16]. Многие из этих стандартов и протоколов в настоящее время поддерживаются и развиваются организацией Biodiversity Information Standards (TDWG).
Современные направления деятельности
На конференции e-Biosphere 2009 в Великобритании[17] были выделены следующие темы, отражающие широкий спектр современных направлений деятельности в биоинформатике биоразнообразия и возможные категории:
- Применение: охрана природы / сельское хозяйство / рыболовство / промышленность / лесное хозяйство
- Применение: инвазивные чужеродные виды
- Применение: систематическая и эволюционная биология
- Применение: таксономия и системы идентификации
- Новые инструменты, сервисы и стандарты для управления и доступа к данным
- Новые инструменты моделирования
- Новые инструменты интеграции данных
- Новые подходы к инфраструктуре биоразнообразия
- Новые подходы к идентификации видов
- Новые подходы к картированию биоразнообразия
- Национальные и региональные базы данных и сети по биоразнообразию
В результате постконференционного семинара ключевых специалистов, играющих значительную роль в биоинформатике биоразнообразия, была принята резолюция, подчёркивающая, среди прочего, необходимость создания долговечных глобальных реестров ресурсов, лежащих в основе биоинформатики биоразнообразия (например, репозиториев, коллекций); завершения построения прочной таксономической инфраструктуры; и создания онтологий для данных о биоразнообразии[18].
Примеры проектов
Глобальные:
- GBIF и OBIS (для морских видов)
- Species 2000, ITIS (Integrated Taxonomic Information System) и Catalogue of Life
- Global Names
- EOL, проект Encyclopedia of Life
- Проект Consortium for the Barcode of Life
- Проект Map of Life
- Проект Reptile Database
- Проект AmphibiaWeb
- uBio Universal Biological Indexer and Organizer, лаборатория морской биологии Вудс-Хоул
- Index to Organism Names (ION) от Clarivate Analytics, предоставляющий доступ к научным названиям таксонов из многочисленных журналов, индексируемых в Zoological Record
- Interim Register of Marine and Nonmarine Genera (IRMNG)
- ZooBank, реестр номенклатурных актов и соответствующей систематической литературы по зоологии
- Index Nominum Genericorum, свод родовых названий для организмов, охватываемых Международный кодекс ботанической номенклатуры, поддерживается Смитсоновским институтом (США)
- International Plant Names Index
- MycoBank, документирующий новые названия и комбинации для грибов
- List of Prokaryotic names with Standing in Nomenclature (LPSN) — официальный реестр валидных названий для бактерий и архей, регулируемый Международный кодекс номенклатуры бактерий
- Библиотека наследия биоразнообразия — оцифровка литературы по биоразнообразию
- Wikispecies, открытая (редактируемая сообществом) база таксономической информации, сопутствующий проект Википедии
- TaxonConcept.org, проект Linked Data, соединяющий разрозненные базы данных о видах
- Instituto de Ciencias Naturales. Universidad Nacional de Colombia. Virtual Collections and Biodiversity Informatics Unit
- ANTABIF. Antarctic Biodiversity Information Facility — свободный и открытый доступ к данным о биоразнообразии Антарктики в духе Антарктического договора
- Genesys, база данных генетических ресурсов растений, поддерживаемая национальными, региональными и международными генбанками
- VertNet, доступ к первичным данным о позвоночных из мировых наборов данных
Региональные и национальные проекты:
- Fauna Europaea
- Atlas of Living Australia
- Pan-European Species directories Infrastructure (PESI)
- Symbiota
- iDigBio, Integrated Digitized Biocollections (США)
- i4Life project
- Sistema de Información sobre Biodiversidad de Colombia
- India Biodiversity Portal (IBP)
- Bhutan Biodiversity Portal (BBP)
- Weed Identification and Knowledge in the Western Indian Ocean (WIKWIO)
- LifeWatch, предлагаемый ESFRI как общеевропейская исследовательская (e-)инфраструктура для поддержки исследований и политики в области биоразнообразия
- Vermont Atlas of Life
Список более 600 текущих проектов, связанных с биоинформатикой биоразнообразия, можно найти в базе данных TDWG «Biodiversity Information Projects of the World»[19].
См. также
Примечания
Литература
- OECD Megascience Forum Working Group on Biological Informatics. Final Report of the OECD Megascience Forum Working Group on Biological Informatics, January 1999. — 1999. — P. 1–74.
- Chapman, A.D. Uses of Primary Species-Occurrence Data. — Copenhagen : Global Biodiversity Information Facility, 2005. — P. 1–106.
- Johnson, N.F. (2007). “Biodiversity informatics”. Annual Review of Entomology. 52: 421—438. DOI:10.1146/annurev.ento.52.110405.091259.
- Sarkar, I.N. (2007). “Biodiversity informatics: organizing and linking information across the spectrum of life”. Briefings in Bioinformatics. 8 (5): 347—357. DOI:10.1093/bib/bbm037. HDL:1912/1781. PMID 17704120.
- Guralnick, R.P.; Hill, A (2009). “Biodiversity Informatics: Automated Approaches for Documenting Global Biodiversity Patterns and Processes”. Bioinformatics. 25 (4): 421—428. DOI:10.1093/bioinformatics/btn659. PMID 19129210.
Ссылки
- Biodiversity Informatics (журнал)