Таксономическая база данных

Таксономическая база данных — это база данных, созданная для хранения информации о биологических таксонах — например, о группах организмов, организованных по названию вида или другому таксономическому идентификатору, — с целью эффективного управления данными и поиска информации. Таксономические базы данных регулярно используются для автоматизированного составления биологических контрольных списков, таких как флоры и фауны, как для печатных изданий, так и в онлайн-формате; для поддержки работы веб-ориентированных информационных систем о видах; как часть управления биологическими коллекциями (например, в музеях и гербариях); а также, в некоторых случаях, для обеспечения компонента управления таксонами в более широких научных или биологических информационных системах. Они также являются фундаментальным вкладом в дисциплину информатики биоразнообразия.

Таксономические базы данных оцифровывают научные данные о биоразнообразии и предоставляют доступ к таксономической информации для исследований^[1]. Таксономические базы данных различаются по охвату групп таксонов и географических областей, которые они стремятся включить, например: жуки в определённом регионе, млекопитающие по всему миру или все описанные таксоны в древе жизни^[2]. Таксономическая база данных может включать идентификаторы организмов (научное название, автор, а для зоологических таксонов — год оригинальной публикации), синонимы, таксономические мнения, литературные источники или цитаты, иллюстрации или фотографии, а также биологические характеристики для каждого таксона (такие как географическое распространение, экология, описательная информация, статус угрозы или уязвимости и др.).^[2]^[3]^[4]^[5] Некоторые базы данных, такие как база данных Global Biodiversity Information Facility (GBIF) и Barcode of Life Data System, хранят ДНК-штрихкод таксона, если он существует (также называемый Barcode Index Number (BIN), который может быть присвоен, например, проектом International Barcode of Life (iBOL) или UNITE — базой данных для ДНК-штрихкодирования грибов)^[6]^[7].

Таксономическая база данных стремится точно моделировать характеристики, представляющие интерес и относящиеся к организмам, которые входят в сферу охвата и использования системы^[8]. Например, базы данных по грибам, водорослям, мохообразным и сосудистым растениям («высшие растения») кодируют нормы Международного кодекса ботанической номенклатуры, в то время как их аналоги для животных и большинства протистов кодируют эквивалентные правила Международного кодекса зоологической номенклатуры. Моделирование соответствующей таксономической иерархии для любого таксона естественным образом сочетается с реляционной моделью, используемой практически во всех системах баз данных. Научный консенсус не достигнут по всем группам таксонов, и новые виды продолжают описываться; поэтому ещё одной целью таксономических баз данных является содействие разрешению конфликтов научных мнений и унификация таксономии^[2].

Возможно, самым ранним задокументированным управлением таксономической информацией в компьютеризированной форме была система таксономического кодирования, разработанная Ричардом Суортцем и др. в Виргинском институте морских наук для биоты Чесапикского залива и описанная в опубликованном отчёте в 1972 году^[9]. Эта работа прямо или косвенно привела к другим проектам с большим охватом, включая систему NODC Taxonomic Code^[10], которая прошла 8 версий, прежде чем была прекращена в 1996 году и интегрирована в действующую Integrated Taxonomic Information System (ITIS). Ряд других таксономических баз данных, специализирующихся на отдельных группах организмов, появившихся с 1970-х годов до настоящего времени, совместно способствуют проекту Species 2000, который с 2001 года сотрудничает с ITIS для создания объединённого продукта — Catalogue of Life. В то время как Catalogue of Life в настоящее время сосредоточен на сборе основной информации о названиях как глобального контрольного списка видов, многочисленные другие проекты таксономических баз данных, такие как Fauna Europaea, Australian Faunal Directory^[11], и другие предоставляют богатую дополнительную информацию, включая описания, иллюстрации, карты и многое другое. Многие проекты таксономических баз данных в настоящее время перечислены на сайте TDWG «Biodiversity Information Projects of the World»^[12].

Представление таксономической информации в машиночитаемой форме вызывает ряд проблем, не встречающихся в других областях, таких как различные способы цитирования одного и того же вида или другого таксономического названия, использование одного и того же названия для нескольких таксонов (омонимы), наличие нескольких неактуальных названий для одного таксона (синонимы), изменения в названии и определении концепции таксона со временем и др.^[8]^[2]^[1] Нестандартизированные категории и метаданные в таксономических базах данных затрудняют исследователям анализ данных^[3]. Одной из площадок, способствующих обсуждению и поиску решений этих и смежных проблем с 1985 года, является Стандарты информации о биоразнообразии (TDWG), изначально называвшаяся Рабочей группой по таксономическим базам данных.

Хотя онлайн-базы данных имеют значительные преимущества (например, расширенный доступ к таксономической информации), у них есть и проблемы, такие как риски целостности данных из-за наличия онлайн- и офлайн-версий и постоянных обновлений, технические проблемы доступа из-за сбоев серверов или интернета, а также различная способность к выполнению сложных запросов для извлечения таксономических данных в списки^[2]. По мере быстрого увеличения объёма информации в онлайн таксономических базах данных агрегация данных, а также интеграция и согласование нестандартизированных данных между базами данных становятся серьёзной задачей в таксономии и информатике биоразнообразия.^[1]

Биологическая классификация
Darwin Core — набор стандартов для обмена машиночитаемыми таксономическими данными о биоразнообразии

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Таксономическая база данных

Цели

История

Проблемы

См. также

Примечания