Биоинформатика биоразнообразия

Биоинформатика биоразнообразия (англ. Biodiversity informatics) — это применение методов информатики к информации о биоразнообразии, такой как таксономия, биогеография или экология. Она определяется как применение технологий информационных технологий к управлению, алгоритмическому исследованию, анализу и интерпретации первичных данных о жизни, в особенности на уровне организации видов[1]. Современные компьютерные методы позволяют по-новому рассматривать и анализировать уже имеющуюся информацию, а также прогнозировать будущие ситуации (см. моделирование экологических ниш). Термин «биоинформатика биоразнообразия» был введён лишь около 1992 года, но с быстрым ростом объёмов данных стал полезен во множестве исследований и приложений, таких как создание таксономических баз данных или геоинформационных систем. Биоинформатика биоразнообразия противопоставляется «биоинформатике», которая часто используется как синоним компьютерной обработки данных в специализированной области молекулярной биологии.

Обзор

Биоинформатика биоразнообразия (отличается, но связана с биоинформатикой) — это применение методов информационных технологий к задачам организации, доступа, визуализации и анализа первичных данных о биоразнообразии. К первичным данным о биоразнообразии относятся названия, наблюдения и учётные записи образцов, а также генетические и морфологические данные, связанные с образцом. Биоинформатика биоразнообразия также может включать управление информацией о неназванных таксонах, например, полученной в результате экологического отбора и секвенирования смешанных полевых образцов. Термин «биоинформатика биоразнообразия» также используется для обозначения вычислительных задач, специфичных для названий биологических объектов, таких как разработка алгоритмов для работы с вариантами представления идентификаторов (например, названий видов и авторов), а также с множественными схемами классификации, в которых эти объекты могут находиться в зависимости от предпочтений различных специалистов, а также синтаксиса и семантики, с помощью которых содержимое таксономических баз данных может быть сделано доступным для машинных запросов и совместимым для целей биоинформатики биоразнообразия.

История дисциплины

Биоинформатика биоразнообразия может считаться начавшейся с создания первых компьютеризированных таксономических баз данных в начале 1970-х годов и развивалась через последующую разработку распределённых поисковых инструментов к концу 1990-х годов, включая Species Analyst из Канзасского университета, Североамериканскую сеть информации о биоразнообразии (NABIN), CONABIO в Мексике, INBio в Коста-Рике и другие[2], создание Глобального информационного центра по биоразнообразию (GBIF) в 2001 году и параллельную разработку различных инструментов моделирования ниш и других средств для работы с оцифрованными данными о биоразнообразии с середины 1980-х годов. В сентябре 2000 года американский журнал Science посвятил специальный выпуск теме «Биоинформатика для биоразнообразия»[3], журнал Biodiversity Informatics начал выходить в 2004 году, а несколько международных конференций в 2000-х годах объединили специалистов по биоинформатике биоразнообразия, включая конференцию London e-Biosphere в июне 2009 года. Приложение к журналу BMC Bioinformatics, опубликованное в ноябре 2009 года, также посвящено вопросам биоинформатики биоразнообразия.

История термина

Согласно переписке, воспроизведённой Вальтером Берендсоном[4], термин «Biodiversity Informatics» был введён Джоном Уайтином в 1992 году для обозначения деятельности организации Canadian Biodiversity Informatics Consortium, занимавшейся объединением базовой информации о биоразнообразии с экологической экономикой и геопространственной информацией в виде GPS и ГИС. Впоследствии термин утратил обязательную связь с GPS/ГИС и стал ассоциироваться с компьютерным управлением любыми аспектами информации о биоразнообразии.

Цифровая таксономия (систематика)

Глобальный список всех видов

Одной из основных целей биоинформатики биоразнообразия является создание полного мастер-списка признанных на данный момент видов мира. Эта цель в значительной степени достигнута проектом Catalogue of Life, который включает более 2 миллионов видов в своём ежегодном списке за 2022 год[5]. Аналогичная работа по ископаемым таксонам ведётся в базе данных Paleobiology Database[6], где задокументировано более 100 000 названий ископаемых видов из неизвестного общего числа.

Научные названия родов и видов как уникальные идентификаторы

Применение линеевской системы биномиальной номенклатуры для видов и униноминалов для родов и более высоких таксонов привело к множеству преимуществ, но также и к проблемам с гомонимами (одно и то же название используется для нескольких таксонов, случайно или легитимно в разных царствах), синонимами (несколько названий для одного таксона), а также с вариантами написания одного и того же названия из-за орфографических различий, мелких ошибок, различий в способе цитирования авторов и дат и др. Кроме того, названия могут меняться со временем из-за изменений таксономических взглядов (например, правильное родовое положение вида или повышение подвидового ранга до вида и наоборот), а также объём таксона может меняться в зависимости от концепций разных авторов. Одним из предложенных решений этой проблемы является использование идентификаторов Life Science Identifiers (LSID) для целей машинного обмена данными, хотя у этого подхода есть как сторонники, так и противники.

Консенсусная классификация организмов

Организмы могут классифицироваться множеством способов (см. основную статью Биологическая классификация), что создаёт проблемы для систем биоинформатики биоразнообразия, предназначенных для включения одной или нескольких классификаций в зависимости от нужд пользователей или для ориентации их на единую «предпочтительную» систему. Возможно, вопрос о возможности создания единой консенсусной системы классификации остаётся открытым, однако проект Catalogue of Life инициировал работу в этом направлении[7], которая была продолжена опубликованной в 2015 году системой, предложенной М. Руджеро и соавторами[8].

Карты биоразнообразия

undefined

Карты биоразнообразия предоставляют картографическое представление пространственных данных о биоразнообразии[9]. Эти данные могут использоваться совместно с чек-листами видов для содействия усилиям по сохранению биоразнообразия. Карты биоразнообразия помогают выявлять закономерности распределения видов и изменения ареалов. Это может отражать утрату биоразнообразия, деградацию местообитаний или изменения в видовом составе. В сочетании с данными об урбанизации карты могут информировать управление землёй, моделируя сценарии, которые могут повлиять на биоразнообразие.

Карты биоразнообразия могут создаваться различными способами: традиционно ареальные карты рисовались вручную на основе литературных данных, но всё чаще используются крупномасштабные данные, например, из проектов гражданская наука (например, iNaturalist) и оцифрованных музейных коллекций (например, VertNet). Инструменты ГИС, такие как ArcGIS или пакеты R, например dismo, могут специально использоваться для моделирования распространения видов (моделирования экологических ниш) и даже прогнозирования влияния экологических изменений на биоразнообразие[10]. GBIF, OBIS и IUCN — это крупные веб-репозитории пространственно-временных данных о видах, на которых основано множество существующих карт биоразнообразия.

Карты биоразнообразия Описание Ссылка
Map of Life (MOL) Масштабируемая веб-платформа для работы с большими данными о биоразнообразии и окружающей среде[11] mol.org
The Map of Biodiversity Importance (NatureServe) Определяет области, критически важные для предотвращения исчезновения видов на территории континентальных США https://www.natureserve.org/map-biodiversity-importance
Biodiversity Maps (National Biodiversity Data Centre) Обзор состояния знаний о распространении биоразнообразия Ирландии https://maps.biodiversityireland.ie/
Saving Nature Карты биоразнообразия, отображающие закономерности для поддержки охранных мероприятий https://savingnature.com/our-biodiversity-maps/

Мобилизация первичной информации о биоразнообразии

«Первичная» информация о биоразнообразии — это базовые данные о встречаемости и разнообразии видов (или любых распознаваемых таксонов), обычно в сочетании с информацией об их распространении в пространстве, времени или обоих измерениях. Такая информация может быть представлена в виде сохранённых образцов и сопутствующих данных, например, собранных в естественнонаучных коллекциях музеев и гербариев, или в виде наблюдательных записей, например, из формальных фаунистических или флористических обследований, проводимых профессиональными биологами и студентами, а также любительских и других запланированных или незапланированных наблюдений, включая всё чаще попадающие в сферу гражданской науки. Обеспечение онлайн-доступа к этой огромной коллекции разнородных первичных данных в едином цифровом виде — ключевая функция биоинформатики биоразнообразия, лежащая в основе региональных и глобальных сетей данных о биоразнообразии, примерами которых являются OBIS и GBIF.

В качестве вторичного источника данных о биоразнообразии соответствующая научная литература может быть проанализирована как вручную, так и (потенциально) с помощью специализированных алгоритмов информационного поиска для извлечения релевантной первичной информации о биоразнообразии, представленной там иногда в агрегированном/сводном виде, но часто как первичные наблюдения в повествовательной или табличной форме. Элементы такой деятельности (например, извлечение ключевых таксономических идентификаторов, присвоение ключевых слов/индексных терминов и др.) на более высоком уровне практиковались в течение многих лет отдельными научными базами данных и поисковыми системами. Однако для максимальной пользы биоинформатики биоразнообразия сами первичные данные о встречаемости должны быть по возможности извлечены и представлены в стандартизированной форме; например, проекты Plazi и INOTAXA преобразуют таксономическую литературу в форматы XML, первый — с использованием TaxonX-XML[12], второй — с использованием формата taXMLit. Библиотека наследия биоразнообразия также добилась значительного прогресса в оцифровке значительных объёмов литературы по таксономии, находящейся в общественном достоянии, которая затем подвергается оптическому распознаванию символов (OCR) для дальнейшей обработки с помощью инструментов биоинформатики биоразнообразия.

Стандарты и протоколы

Как и в других дисциплинах, связанных с данными, биоинформатика биоразнообразия выигрывает от внедрения соответствующих стандартов и протоколов для поддержки передачи информации между машинами и обеспечения совместимости данных в своей области. Примеры соответствующих стандартов включают Darwin Core — XML-схему для данных о коллекциях и наблюдениях, разработанную с 1998 года, а также её расширения, схему передачи таксономических концепций (Taxonomic Concept Transfer Schema)[13], стандарты для структурированных описательных данных[14], и Access to Biological Collection Data (ABCD)[15]; а также протоколы извлечения и передачи данных, такие как DiGIR (в настоящее время в основном устаревший) и TAPIR (TDWG Access Protocol for Information Retrieval)[16]. Многие из этих стандартов и протоколов в настоящее время поддерживаются и развиваются организацией Biodiversity Information Standards (TDWG).

Современные направления деятельности

На конференции e-Biosphere 2009 в Великобритании[17] были выделены следующие темы, отражающие широкий спектр современных направлений деятельности в биоинформатике биоразнообразия и возможные категории:

  • Применение: охрана природы / сельское хозяйство / рыболовство / промышленность / лесное хозяйство
  • Применение: инвазивные чужеродные виды
  • Применение: систематическая и эволюционная биология
  • Применение: таксономия и системы идентификации
  • Новые инструменты, сервисы и стандарты для управления и доступа к данным
    • Новые инструменты моделирования
    • Новые инструменты интеграции данных
    • Новые подходы к инфраструктуре биоразнообразия
    • Новые подходы к идентификации видов
    • Новые подходы к картированию биоразнообразия
  • Национальные и региональные базы данных и сети по биоразнообразию

В результате постконференционного семинара ключевых специалистов, играющих значительную роль в биоинформатике биоразнообразия, была принята резолюция, подчёркивающая, среди прочего, необходимость создания долговечных глобальных реестров ресурсов, лежащих в основе биоинформатики биоразнообразия (например, репозиториев, коллекций); завершения построения прочной таксономической инфраструктуры; и создания онтологий для данных о биоразнообразии[18].

Примеры проектов

Глобальные:

  • GBIF и OBIS (для морских видов)
  • Species 2000, ITIS (Integrated Taxonomic Information System) и Catalogue of Life
  • Global Names
  • EOL, проект Encyclopedia of Life
  • Проект Consortium for the Barcode of Life
  • Проект Map of Life
  • Проект Reptile Database
  • Проект AmphibiaWeb
  • uBio Universal Biological Indexer and Organizer, лаборатория морской биологии Вудс-Хоул
  • Index to Organism Names (ION) от Clarivate Analytics, предоставляющий доступ к научным названиям таксонов из многочисленных журналов, индексируемых в Zoological Record
  • Interim Register of Marine and Nonmarine Genera (IRMNG)
  • ZooBank, реестр номенклатурных актов и соответствующей систематической литературы по зоологии
  • Index Nominum Genericorum, свод родовых названий для организмов, охватываемых Международный кодекс ботанической номенклатуры, поддерживается Смитсоновским институтом (США)
  • International Plant Names Index
  • MycoBank, документирующий новые названия и комбинации для грибов
  • List of Prokaryotic names with Standing in Nomenclature (LPSN) — официальный реестр валидных названий для бактерий и архей, регулируемый Международный кодекс номенклатуры бактерий
  • Библиотека наследия биоразнообразия — оцифровка литературы по биоразнообразию
  • Wikispecies, открытая (редактируемая сообществом) база таксономической информации, сопутствующий проект Википедии
  • TaxonConcept.org, проект Linked Data, соединяющий разрозненные базы данных о видах
  • Instituto de Ciencias Naturales. Universidad Nacional de Colombia. Virtual Collections and Biodiversity Informatics Unit
  • ANTABIF. Antarctic Biodiversity Information Facility — свободный и открытый доступ к данным о биоразнообразии Антарктики в духе Антарктического договора
  • Genesys, база данных генетических ресурсов растений, поддерживаемая национальными, региональными и международными генбанками
  • VertNet, доступ к первичным данным о позвоночных из мировых наборов данных

Региональные и национальные проекты:

  • Fauna Europaea
  • Atlas of Living Australia
  • Pan-European Species directories Infrastructure (PESI)
  • Symbiota
  • iDigBio, Integrated Digitized Biocollections (США)
  • i4Life project
  • Sistema de Información sobre Biodiversidad de Colombia
  • India Biodiversity Portal (IBP)
  • Bhutan Biodiversity Portal (BBP)
  • Weed Identification and Knowledge in the Western Indian Ocean (WIKWIO)
  • LifeWatch, предлагаемый ESFRI как общеевропейская исследовательская (e-)инфраструктура для поддержки исследований и политики в области биоразнообразия
  • Vermont Atlas of Life

Список более 600 текущих проектов, связанных с биоинформатикой биоразнообразия, можно найти в базе данных TDWG «Biodiversity Information Projects of the World»[19].

См. также

Примечания

Литература

Ссылки