Кубоид (компьютерное зрение)
Кубоид (англ. cuboid) — это небольшой пространственно-временной объём, выделяемый из изображения с целью распознавания поведения или активности[1]. Кубоид рассматривается как базовый геометрический примитив и используется для представления трёхмерных объектов в трёхмерном представлении плоского, двумерного изображения[2]. В современном контексте компьютерного зрения термин фактически является синонимом трёхмерной ограничивающей рамки (англ. 3D bounding box), которая описывает положение, физические размеры и ориентацию объекта в пространстве. Историческое использование кубоидов как пространственно-временных объёмов для распознавания действий в видео трансформировалось: на смену ручному выделению признаков пришли архитектуры глубокого обучения, такие как трёхмерные свёрточные нейронные сети (3D CNN) и трансформеры[3].
Методы детекции
Кубоиды могут быть выделены как из двумерных, так и из трёхмерных изображений[4].
Один из способов получения кубоидов использует базы данных так называемых примитивов сцены, представляющих собой коллекции изображений, где уже выделены кубоиды. С помощью инструментов машинного обучения такие базы анализируются компьютерами для выявления условий появления кубоидов, после чего становится возможным автоматически выделять кубоиды и на других изображениях[2].
Процесс выделения кубоидов чувствителен к изменению цвета и освещённости, перекрываниям и наличию фонового "шума". Поэтому компьютерам сложно выделять кубоиды объектов, обладающих многими цветами, неоднородной освещённостью либо частично перекрытых, а также при большом количестве посторонних объектов на фоне. Это, в частности, связано с относительной простотой используемых алгоритмов[4]. Впоследствии классические методы уступили место сквозному глубокому обучению из-за низкой устойчивости к сложным условиям[5].
Нейросетевые подходы превосходят классические алгоритмы в точности локализации кубоидов. Одной из таких моделей является Deep Cuboid Detector (2016), которая использует сквозную свёрточную нейронную сеть (CNN) для обработки RGB-изображений[5]. Для решения проблемы перекрывающихся объектов в нейросетях применяется алгоритм подавления немаксимумов (Non-Maximum Suppression, NMS), отфильтровывающий избыточные рамки, а устойчивость к шуму достигается за счёт аугментации данных при обучении[6][7]. Среди современных монокулярных моделей выделяется Vehiclectron, а также алгоритмы 2025—2026 годов, такие как Mono3D и 3D-MOOD, направленные на повышение обобщающей способности, работу с окклюзиями и обнаружение объектов в условиях открытого набора категорий[8][9].
Также кубоиды получают при помощи RGB-D-изображений, то есть RGB-изображений, в которых зафиксирована глубина каждого пикселя. В этом случае компьютеру не требуется дополнительно определять глубину объектов, поскольку она уже записана в данных[10]. При работе с LiDAR основной проблемой является разреженность получаемых облаков точек, что усложняет точное определение границ и формы объектов. Для решения этой задачи применяются модели глубокого обучения, предсказывающие параметры трёхмерных ограничивающих рамок. Современные методы направлены на компенсацию разреженности данных. Одним из ключевых подходов является уплотнение облака точек и генерация «псевдо-LiDAR», когда плотность данных искусственно повышается перед этапом детектирования с использованием признаков из монокулярных RGB-изображений[11][12]. Широко применяется и мультимодальное слияние, которое объединяет разреженные данные LiDAR и плотные RGB-изображения с камер для получения более надёжных результатов обнаружения[11][12].
Стандарты разметки данных
Индустриальными стандартами разметки 3D-кубоидов в задачах автономного вождения стали такие датасеты, как KITTI и nuScenes, каждый из которых имеет свои спецификации формата аннотаций.
В датасете KITTI используется текстовый формат, где каждая строка описывает один объект с помощью 15 значений. В их число входят класс объекта, размеры, а также координаты и угол поворота, заданные относительно системы координат камеры.
В датасете nuScenes применяется формат JSON, где параметры 3D-кубоида описываются семью степенями свободы (7-DoF). В отличие от KITTI, координаты объектов представлены в глобальной системе координат, а для описания их пространственной ориентации используются кватернионы.
Применение
Кубоиды используются для построения трёхмерных карт на основе облаков точек и могут применяться в различных ситуациях: в системах дополненной реальности[13], при автоматизированном управлении автомобилями, дронами, роботами[10], для обнаружения объектов[4]. В системах автономного вождения 3D-кубоиды играют критически важную роль: они используются для создания точной трёхмерной модели окружающей среды и предотвращения столкновений, позволяя оценивать габариты, положение и траекторию движения объектов[14][15].
Кубоиды позволяют программному обеспечению анализировать сцену с помощью геометрического описания без привязки к конкретным объектам (object-agnostic approach)[2]. Для оценки планировки помещений применяется метод PixCuboid, который представляет комнату в виде единого большого кубоида. Алгоритм анализирует несколько RGB-изображений с разных ракурсов для восстановления трёхмерной геометрии пространства (стен, пола и потолка) без использования датчиков глубины. Подобное абстрактное представление структуры помещения служит базовой картой, которая востребована в приложениях дополненной реальности и для навигации роботов[16][17][18].
Точки интереса, то есть области на изображении, которые компьютер выделяет как важные для распознавания, используемые совместно с кубоидами, применяются для сопоставления изображений, идентификации помещений или сцен и распознавания экземпляров объектов. Точки интереса из трёхмерных изображений вместе с кубоидами используются для распознавания активностей, поскольку позволяют анализировать только наиболее важные аспекты сцены[4].
RGB-D-изображения применяются совместно с системами одновременной локализации и построения карты (SLAM), образуя системы RGB-D SLAM. Такие системы используются в САПР для построения трёхмерных карт на основе облаков точек[10].
Большинство промышленных инструментов для многоосевой механообработки работают с системами автоматизированного производства и рассчитаны на кубоидную рабочую область[19].