VOTT
Visual Object Tagging Tool (VoTT) — бесплатное кроссплатформенное приложение с открытым исходным кодом, предназначенное для разметки изображений и видео при создании датасетов для задач компьютерного зрения. Инструмент позволяет формировать ограничивающие рамки и полигоны, выполнять полуавтоматическую разметку с помощью встроенных методов отслеживания и активного обучения, а также экспортировать аннотации в форматы, совместимые с популярными фреймворками машинного обучения[1]. В декабре 2021 года Microsoft объявила, что проект более не поддерживается активно, однако исходный код остаётся доступным для сообщества[2].
Что важно знать
| Visual Object Tagging Tool | |||
|---|---|---|---|
| Тип | Инструмент аннотации данных | ||
| Разработчик | Microsoft | ||
| Написана на | Electron (JavaScript, HTML, CSS) | ||
| Операционные системы | Windows, Linux, macOS | ||
| Языки интерфейса | Английский | ||
| Репозиторий | github.com/microsoft/VoTT | ||
| |||
| Состояние | Поддержка прекращена (декабрь 2021) | ||
| Лицензия | MIT | ||
| Сайт | VoTT на GitHub | ||
Функции
VoTT объединяет ряд возможностей, ориентированных на полный цикл подготовки данных для моделей обнаружения и сегментации объектов.
- Поддержка изображений и видео — разметка отдельных файлов и последовательностей кадров, с выбором частоты извлечения кадров для видео.
- Типы аннотаций — создание ограничивающих рамок и полигонов, пригодных для задач как объектного детектирования, так и семантической сегментации[3].
- Импорт данных — подключение к локальной файловой системе, Azure Blob Storage и Bing Image Search, что делает инструмент удобным как для офлайн-, так и для облачных сценариев[1].
- Экспорт аннотаций — форматы VoTT JSON, CSV, Pascal VOC, TFRecords (один файл .tfrecord на изображение), Microsoft CNTK и Azure Custom Vision[4].
- Полуавтоматическая разметка — алгоритм Camshift для отслеживания объектов в видео и функция «Active Learning» (Predict Tag / Auto Detect; стратегия обучения модели, при которой алгоритм сам выбирает, какие из неразмеченных данных будут наиболее полезны для его обучения), использующая модели TensorFlow.js для автоматического предложения рамок[5].
- Интеграция в ML-конвейер — единые настройки «Source Connection» и «Target Connection» позволяют описать, откуда брать необработанные данные и куда сохранять результаты разметки, упрощая построение сквозных пайплайнов (прим.: автоматизированный «сборочный конвейер» для кода).
- Интерфейс — Electron-клиент (прим.: настольное приложение для Windows, macOS, Linux, созданное с помощью фреймворка Electron) с поддержкой горячих клавиш, панели тегов, масштабируемого окна просмотра и режимом тёмной темы; дополнительно доступна веб-версия, работающая в современных браузерах (без прямого доступа к локальной файловой системе)[1].
Примеры использования
Несмотря на прекращение активной поддержки, VoTT продолжает применяться в образовательных курсах и Proof-of-Concept-проектах. Наиболее подробно описаны два сценария.
VoTT поддерживает прямой экспорт размеченных изображений в сервис Azure Custom Vision, что позволяет пользователю:
- Создать новый проект в VoTT и настроить Source Connection (например, «Local File System»).
- Указать Target Connection «Azure Custom Vision», заполнив регион, API-ключ и идентификатор проекта.
- Разметить изображения, присвоив объектам теги.
- Выполнить экспорт, после чего изображения и аннотации автоматически загрузятся в выбранный проект Custom Vision[6][7].
Такой подход избавляет от ручного импорта и ускоряет переход к этапу обучения модели.
Для пользователей TensorFlow VoTT позволяет:
- Разметить изображения bounding boxes или полигонами.
- В «Export Settings» выбрать провайдер «TensorFlow (Pascal VOC and TFRecords)».
- Задать режим «Only Tagged Assets» и запустить экспорт. В результате создаётся набор файлов .tfrecord, по одному на изображение[4].
- При необходимости конвертировать множество TFRecord-файлов в единый архив с помощью сторонних скриптов или сервиса Roboflow[8].
Ограничения инструмента
Поскольку Microsoft больше не развивает проект активно, в нём не появляются новые функции, а ошибки (баги) в новых версиях ОС или браузеров могут не исправляться. VoTT построен на базе Electron, что может приводить к высокому потреблению оперативной памяти и замедлению работы при разметке очень больших наборов данных (тысячи изображений). VoTT был тесно интегрирован с Azure Custom Vision, однако из-за прекращения поддержки пользователям рекомендуют переходить на встроенные инструменты разметки внутри портала Azure или сторонние сервисы[9][10][11].
Примечания
| Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ». Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ». |


