VOTT

Visual Object Tagging Tool
Visual Object Tagging Tool
Тип	Инструмент аннотации данных
Разработчик	Microsoft
Написана на	Electron (JavaScript, HTML, CSS)
Операционные системы	Windows, Linux, macOS
Языки интерфейса	Английский
Репозиторий	github.com/microsoft/VoTT
Создаваемые форматы файлов:
	VoTT JSON, CSV, Pascal VOC, TFRecords, CNTK, Azure Custom Vision
Состояние	Поддержка прекращена (декабрь 2021)
Лицензия	MIT
Сайт	VoTT на GitHub

Visual Object Tagging Tool
Visual Object Tagging Tool
Тип	Инструмент аннотации данных
Разработчик	Microsoft
Написана на	Electron (JavaScript, HTML, CSS)
Операционные системы	Windows, Linux, macOS
Языки интерфейса	Английский
Репозиторий	github.com/microsoft/VoTT
Создаваемые форматы файлов:
	VoTT JSON, CSV, Pascal VOC, TFRecords, CNTK, Azure Custom Vision
Состояние	Поддержка прекращена (декабрь 2021)
Лицензия	MIT
Сайт	VoTT на GitHub

Visual Object Tagging Tool (VoTT) — бесплатное кроссплатформенное приложение с открытым исходным кодом, предназначенное для разметки изображений и видео при создании датасетов для задач компьютерного зрения. Инструмент позволяет формировать ограничивающие рамки и полигоны, выполнять полуавтоматическую разметку с помощью встроенных методов отслеживания и активного обучения, а также экспортировать аннотации в форматы, совместимые с популярными фреймворками машинного обучения^[1]. В декабре 2021 года Microsoft объявила, что проект более не поддерживается активно, однако исходный код остаётся доступным для сообщества^[2].

VoTT объединяет ряд возможностей, ориентированных на полный цикл подготовки данных для моделей обнаружения и сегментации объектов.

Поддержка изображений и видео — разметка отдельных файлов и последовательностей кадров, с выбором частоты извлечения кадров для видео.
Типы аннотаций — создание ограничивающих рамок и полигонов, пригодных для задач как объектного детектирования, так и семантической сегментации^[3].
Импорт данных — подключение к локальной файловой системе, Azure Blob Storage и Bing Image Search, что делает инструмент удобным как для офлайн-, так и для облачных сценариев^[1].
Экспорт аннотаций — форматы VoTT JSON, CSV, Pascal VOC, TFRecords (один файл .tfrecord на изображение), Microsoft CNTK и Azure Custom Vision^[4].
Полуавтоматическая разметка — алгоритм Camshift для отслеживания объектов в видео и функция «Active Learning» (Predict Tag / Auto Detect; стратегия обучения модели, при которой алгоритм сам выбирает, какие из неразмеченных данных будут наиболее полезны для его обучения), использующая модели TensorFlow.js для автоматического предложения рамок^[5].
Интеграция в ML-конвейер — единые настройки «Source Connection» и «Target Connection» позволяют описать, откуда брать необработанные данные и куда сохранять результаты разметки, упрощая построение сквозных пайплайнов (прим.: автоматизированный «сборочный конвейер» для кода).
Интерфейс — Electron-клиент (прим.: настольное приложение для Windows, macOS, Linux, созданное с помощью фреймворка Electron) с поддержкой горячих клавиш, панели тегов, масштабируемого окна просмотра и режимом тёмной темы; дополнительно доступна веб-версия, работающая в современных браузерах (без прямого доступа к локальной файловой системе)^[1].

Несмотря на прекращение активной поддержки, VoTT продолжает применяться в образовательных курсах и Proof-of-Concept-проектах. Наиболее подробно описаны два сценария.

Интеграция с Azure Custom Vision

VoTT поддерживает прямой экспорт размеченных изображений в сервис Azure Custom Vision, что позволяет пользователю:

Создать новый проект в VoTT и настроить Source Connection (например, «Local File System»).
Указать Target Connection «Azure Custom Vision», заполнив регион, API-ключ и идентификатор проекта.
Разметить изображения, присвоив объектам теги.
Выполнить экспорт, после чего изображения и аннотации автоматически загрузятся в выбранный проект Custom Vision^[6]^[7].

Такой подход избавляет от ручного импорта и ускоряет переход к этапу обучения модели.

Экспорт в TFRecords для TensorFlow Object Detection API

Для пользователей TensorFlow VoTT позволяет:

Разметить изображения bounding boxes или полигонами.
В «Export Settings» выбрать провайдер «TensorFlow (Pascal VOC and TFRecords)».
Задать режим «Only Tagged Assets» и запустить экспорт. В результате создаётся набор файлов .tfrecord, по одному на изображение^[4].
При необходимости конвертировать множество TFRecord-файлов в единый архив с помощью сторонних скриптов или сервиса Roboflow^[8].

Поскольку Microsoft больше не развивает проект активно, в нём не появляются новые функции, а ошибки (баги) в новых версиях ОС или браузеров могут не исправляться. VoTT построен на базе Electron, что может приводить к высокому потреблению оперативной памяти и замедлению работы при разметке очень больших наборов данных (тысячи изображений). VoTT был тесно интегрирован с Azure Custom Vision, однако из-за прекращения поддержки пользователям рекомендуют переходить на встроенные инструменты разметки внутри портала Azure или сторонние сервисы^[9]^[10]^[11].

Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

VOTT

Функции

Примеры использования

Интеграция с Azure Custom Vision

Экспорт в TFRecords для TensorFlow Object Detection API

Ограничения инструмента

Примечания