Автоматическая идентификация видов
Автоматическая идентификация видов — подход, позволяющий предоставлять экспертные знания специалистов по систематике экологам, парасистематикам и другим пользователям с помощью цифровых технологий и искусственного интеллекта. В настоящее время большинство автоматизированных систем идентификации опираются на анализ изображений исследуемых организмов. На основании точно определённых изображений представителей вида обучается классификатор. После предъявления достаточного массива обучающих данных такой классификатор способен распознавать изученные виды на новых, ранее не встречавшихся изображениях.
Введение
Автоматическая идентификация биологических объектов, таких как насекомые (отдельные особи) и/или их группы (например, виды, гильдии, отдельные признаки), была давней мечтой систематиков. Целью первых многомерных биометрических методов было решение вечной проблемы различения групп и их межгрупповой характеристики. Несмотря на значительные изыскания в 1950-х и 1960-х годах, продвижение в создании и внедрении практических систем для полностью автоматизированной биологической идентификации протекало очень медленно. Ещё в 2004 году Дэниел Джанзен снова сформулировал эту мечту для новой аудитории:
Космический корабль приземляется. Он выходит. Он наводит прибор. Прибор говорит: «дружественный — недружественный — съедобный — ядовитый — безопасный — опасный — живой — неживой». При следующем сканировании он произносит: Quercus oleoides, Homo sapiens, Spondias mombin, Solanum nigrum, Crotalus durissus, Morpho peleides, серпентинообразный. Эта идея сидит у меня в голове со времён, когда я читал научную фантастику в девятом классе полвека назад.
Проблема идентификации видов
Решение Джанзена классической задачи заключалось в создании машин для идентификации видов по последовательностям ДНК. Однако современные сдвиги в развитии вычислительной техники и программного обеспечения позволили реализовать замысел Джанзена уже сейчас — и не только для создания ДНК-штрихкодов, но и для распознавания на основе цифровых изображений.
Обзор, опубликованный в 2004 году, рассматривает причины, по которым автоматическая идентификация видов не получила широкого распространения к тому времени, а также оценивает её реалистичность в будущем. Было обнаружено, что «небольшое, но растущее число исследований разрабатывает автоматические системы идентификации видов на основе морфологических признаков». Обзор 20 работ по анализу структуры клеток, пыльцы, крыльев и гениталий показал успех идентификации от 40 до 100% на обучающих выборках с 1 до 72 видов. Однако исследователи выявили четыре фундаментальные проблемы таких систем: (1) обучающие выборки слишком малы (5–10 экземпляров на вид), а их расширение, особенно для редких видов, затруднено; (2) ошибки идентификации недостаточно изучены для их учёта и систематизации; (3) масштабируемость — анализировалось очень ограниченное количество видов (менее 200); (4) новые виды — системы идентифицируют только изученные ими виды и любую новую находку относят к уже известным.
В обзоре 2017 года[1] систематически обсуждается прогресс в автоматизации идентификации видов растений в течение 2005–2015 годов: за это время в ведущих изданиях опубликовано 120 исследований, преимущественно выполненных учёными с ИТ-образованием. В них предлагается множество методов компьютерного зрения; выделяются признаки, уменьшающие размерность исходных данных при сохранении типичной информации, а также методы классификации. Подавляющее большинство работ использует анализ листьев, лишь 13 исследований посвящены цветкам, что объясняется большей доступностью и круглогодичной сохранностью листовой пластинки. Используемые признаки отражают как общие характеристики объекта (форма, текстура, цвет), так и специфические параметры листа (жилкование, край). Однако большинство работ всё ещё использует выборки для не более 250 видов. Но наметился прогресс: одно исследование анализирует базу, включающую более 2000 видов[2], а другое — более 20 тыс[3] видов.
Система, разработанная в 2022 году[4], показала, что автоматическая идентификация достигает высокой точности и уже используется в системах мониторинга насекомых-вредителей с электронными ловушками. Обучая классификаторы на нескольких сотнях изображений, система позволяет правильно определять фруктовых мух, используется для непрерывного мониторинга, направленного на раннее выявление инвазий или вспышек вредителей. К успеху способствовало то, что e-ловушки создают стандартизированные условия (контролируемое положение, угол обзора, освещённость), что облегчает разработку таких систем по сравнению со «свободно ориентируемыми» подходами.
Существует острый дефицит специалистов, умеющих определять представителей именно той биоты, сохранение которой стало объектом глобальной озабоченности. Так, в комментарии по тематике палеонтологии 1993 года Роджер Кеслер отметил:
«… мы теряем систематиков-палеонтологов, обладающих хотя бы приблизительно комплексными знаниями о крупных группах организмов… Палеонтологи следующего века вряд ли смогут уделять много времени обсуждению таксономических проблем… Палеонтология должна сохранять уровень научного интереса без поддержки систематиков, которые внесли огромный вклад в её успех».
Недостаток такого рода экспертизы наносит ущерб не только фундаментальной и прикладной науке (охранная биология, биологическая океанография, климатология, экология) и промышленным отраслям (сельское хозяйство, биостратиграфия), где необходимы точные идентификации, но и связан с тем, что техническая и таксономическая литература богата примерами противоречивых и некорректных определений. Это объясняется разными причинами — недостаточной подготовленностью таксономистов, разночтениями в трактовке границ между сходными группами, недостаточной полнотой описаний, ограниченным доступом к современным монографиям и коллекциям, а также субъективностью межгрупповых концепций. Рецензирование отсекает только самые явные ошибки, и то лишь при условии, что автор предоставляет достаточно иллюстраций, запись звуков или генетические последовательности.
Систематика также может значительно выиграть от дальнейшего развития автоматизированных систем идентификации. Для привлечения кадров и ресурсов этой области требуется стать «крупным, координированным международным научным предприятием».
Многие указывают на Интернет, прежде всего Веб, как на среду, позволяющую реализовать такую трансформацию. Создание виртуальной системы по аналогии с GenBank для морфологических данных, аудио- и видеоинформации стало бы серьёзным шагом вперёд, но и этого недостаточно: расширение доступа к текстовым описаниям и наблюдениям не решает проблему таксономических барьеров и низкой воспроизводимости идентификаций. Имеющаяся субъективность при принятии решений на основе качественных критериев должна быть либо уменьшена, либо формализована аналитически.
Правильно спроектированные, гибкие, устойчивые автоматические системы идентификации, основанные на распределённых вычислительных архитектурах и снабжённые авторитетными обучающими данными (например, изображения, генетические последовательности) могут в перспективе предоставить систематикам электронные архивы данных и необходимые инструменты для рутинной идентификации рядовых таксонов. Такие системы должны также определять собственную степень уверенности и переадресовывать сомнительные случаи экспертам. По мере накопления опыта они могут использовать приёмы искусственного интеллекта, обучаясь на практике. После разработки точных морфологических (или молекулярных) моделей они позволяют выяснить, какие признаки и пределы их вариации лежат в основе идентификации и открывают путь к поиску новых, более надёжных таксономических характеристик.
- iNaturalist — проект массовой гражданской науки и социальная сеть натуралистов с интеграцией ручной и автоматизированной идентификации растений, животных и других организмов через веб и мобильные приложения[5].
- Naturalis Biodiversity Center (Нидерланды) разрабатывает ИИ-модели и сервисы для идентификации видов[6][7], включая:
- Модель, обученную на данных, проверенных экспертами, и использующуюся 7 европейскими порталами по биоразнообразию;
- Модель анализа изображений с камер DIOPSIS для мониторинга насекомых;
- 10 моделей ИИ для бабочек, конусовых улиток, яиц птиц, капсул яиц скатов и акул, ископаемых находок пляжа, а также масок различных культур, входящих в коллекции более 5 нидерландских музеев;
- Модели распознавания (зоологических) звуков живых существ.
- Pl@ntNet — глобальный проект гражданской науки с приложением и сайтом для определения растений по фотографии, обученным на машинном обучении;
- Leaf Snap — приложение iOS, разработанное Смитсоновским институтом, использует визуальное распознавание для определения североамериканских деревьев по листьям;
- Google Фото автоматически распознаёт различные виды на фотографиях[8].
- Plant.id — веб-приложение и АПИ, разработанные компанией FlowerChecker, используют нейронную сеть, обученную на фотографиях пользователей из одноимённого мобильного приложения[9].
Примечания
Литература
- Гастон, Кевин Дж.; О’Нил, Марк А. (22 марта 2004). “Автоматическое распознавание видов: почему нет?”. Philosophical Transactions of the Royal Society of London. B [англ.]. 359 (1444): 655—667. DOI:10.1098/rstb.2003.1442. PMC 1693351. PMID 15253351.
Ссылки
Ниже приведены ссылки на домашние страницы систем автоматической идентификации видов. Системы SPIDA и DAISY предназначены для универсальной классификации любых изображений, а ABIS и DrawWing — только для насекомых с перепончатыми крыльями, поскольку работают по анализу жилкования.
- Система SPIDA
- ABIS
- DAISY
- DrawWing
- LeafSnap Архивировано 20 мая 2013 года.
- Pl@ntNet
- Insect.id от Kindwise — распознаёт более 6000 видов (жуки, пауки, сороконожки, бабочки, муравьи, пчёлы и другие насекомоподобные)
- Mushroom id от Kindwise — распознаёт более 3200 видов (грибы, лишайники, слизевики)
- Plant.id от Kindwise — более 33 000 таксонов, включая комнатные растения, садовые, деревья, сорняки, грибы, лишайники; также определяет распространённые болезни растений