VOTT

Visual Object Tagging Tool (VoTT) — бесплатное кроссплатформенное приложение с открытым исходным кодом, предназначенное для разметки изображений и видео при создании датасетов для задач компьютерного зрения. Инструмент позволяет формировать ограничивающие рамки и полигоны, выполнять полуавтоматическую разметку с помощью встроенных методов отслеживания и активного обучения, а также экспортировать аннотации в форматы, совместимые с популярными фреймворками машинного обучения[1]. В декабре 2021 года Microsoft объявила, что проект более не поддерживается активно, однако исходный код остаётся доступным для сообщества[2].

Что важно знать
Visual Object Tagging Tool
Тип Инструмент аннотации данных
Разработчик Microsoft
Написана на Electron (JavaScript, HTML, CSS)
Операционные системы Windows, Linux, macOS
Языки интерфейса Английский
Репозиторий github.com/microsoft/VoTT
Состояние Поддержка прекращена (декабрь 2021)
Лицензия MIT
Сайт VoTT на GitHub

Функции

VoTT объединяет ряд возможностей, ориентированных на полный цикл подготовки данных для моделей обнаружения и сегментации объектов.

  • Поддержка изображений и видео — разметка отдельных файлов и последовательностей кадров, с выбором частоты извлечения кадров для видео.
  • Типы аннотаций — создание ограничивающих рамок и полигонов, пригодных для задач как объектного детектирования, так и семантической сегментации[3].
  • Импорт данных — подключение к локальной файловой системе, Azure Blob Storage и Bing Image Search, что делает инструмент удобным как для офлайн-, так и для облачных сценариев[1].
  • Экспорт аннотаций — форматы VoTT JSON, CSV, Pascal VOC, TFRecords (один файл .tfrecord на изображение), Microsoft CNTK и Azure Custom Vision[4].
  • Полуавтоматическая разметка — алгоритм Camshift для отслеживания объектов в видео и функция «Active Learning» (Predict Tag / Auto Detect; стратегия обучения модели, при которой алгоритм сам выбирает, какие из неразмеченных данных будут наиболее полезны для его обучения), использующая модели TensorFlow.js для автоматического предложения рамок[5].
  • Интеграция в ML-конвейер — единые настройки «Source Connection» и «Target Connection» позволяют описать, откуда брать необработанные данные и куда сохранять результаты разметки, упрощая построение сквозных пайплайнов (прим.: автоматизированный «сборочный конвейер» для кода).
  • Интерфейс — Electron-клиент (прим.: настольное приложение для Windows, macOS, Linux, созданное с помощью фреймворка Electron) с поддержкой горячих клавиш, панели тегов, масштабируемого окна просмотра и режимом тёмной темы; дополнительно доступна веб-версия, работающая в современных браузерах (без прямого доступа к локальной файловой системе)[1].

Примеры использования

Несмотря на прекращение активной поддержки, VoTT продолжает применяться в образовательных курсах и Proof-of-Concept-проектах. Наиболее подробно описаны два сценария.

Интеграция с Azure Custom Vision

VoTT поддерживает прямой экспорт размеченных изображений в сервис Azure Custom Vision, что позволяет пользователю:

  1. Создать новый проект в VoTT и настроить Source Connection (например, «Local File System»).
  2. Указать Target Connection «Azure Custom Vision», заполнив регион, API-ключ и идентификатор проекта.
  3. Разметить изображения, присвоив объектам теги.
  4. Выполнить экспорт, после чего изображения и аннотации автоматически загрузятся в выбранный проект Custom Vision[6][7].

Такой подход избавляет от ручного импорта и ускоряет переход к этапу обучения модели.

Экспорт в TFRecords для TensorFlow Object Detection API

Для пользователей TensorFlow VoTT позволяет:

  1. Разметить изображения bounding boxes или полигонами.
  2. В «Export Settings» выбрать провайдер «TensorFlow (Pascal VOC and TFRecords)».
  3. Задать режим «Only Tagged Assets» и запустить экспорт. В результате создаётся набор файлов .tfrecord, по одному на изображение[4].
  4. При необходимости конвертировать множество TFRecord-файлов в единый архив с помощью сторонних скриптов или сервиса Roboflow[8].

Ограничения инструмента

Поскольку Microsoft больше не развивает проект активно, в нём не появляются новые функции, а ошибки (баги) в новых версиях ОС или браузеров могут не исправляться. VoTT построен на базе Electron, что может приводить к высокому потреблению оперативной памяти и замедлению работы при разметке очень больших наборов данных (тысячи изображений). VoTT был тесно интегрирован с Azure Custom Vision, однако из-за прекращения поддержки пользователям рекомендуют переходить на встроенные инструменты разметки внутри портала Azure или сторонние сервисы[9][10][11].

Примечания

© Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».