Кубоид (компьютерное зрение)

Кубоид (англ. cuboid) — это небольшой пространственно-временной объём, выделяемый из изображения с целью распознавания поведения или активности[1]. Кубоид рассматривается как базовый геометрический примитив и используется для представления трёхмерных объектов в трёхмерном представлении плоского, двумерного изображения[2]. В современном контексте компьютерного зрения термин фактически является синонимом трёхмерной ограничивающей рамки (англ. 3D bounding box), которая описывает положение, физические размеры и ориентацию объекта в пространстве. Историческое использование кубоидов как пространственно-временных объёмов для распознавания действий в видео трансформировалось: на смену ручному выделению признаков пришли архитектуры глубокого обучения, такие как трёхмерные свёрточные нейронные сети (3D CNN) и трансформеры[3].

Методы детекции

Кубоиды могут быть выделены как из двумерных, так и из трёхмерных изображений[4].

Классические подходы

Один из способов получения кубоидов использует базы данных так называемых примитивов сцены, представляющих собой коллекции изображений, где уже выделены кубоиды. С помощью инструментов машинного обучения такие базы анализируются компьютерами для выявления условий появления кубоидов, после чего становится возможным автоматически выделять кубоиды и на других изображениях[2].

Процесс выделения кубоидов чувствителен к изменению цвета и освещённости, перекрываниям и наличию фонового "шума". Поэтому компьютерам сложно выделять кубоиды объектов, обладающих многими цветами, неоднородной освещённостью либо частично перекрытых, а также при большом количестве посторонних объектов на фоне. Это, в частности, связано с относительной простотой используемых алгоритмов[4]. Впоследствии классические методы уступили место сквозному глубокому обучению из-за низкой устойчивости к сложным условиям[5].

Глубокое обучение

Нейросетевые подходы превосходят классические алгоритмы в точности локализации кубоидов. Одной из таких моделей является Deep Cuboid Detector (2016), которая использует сквозную свёрточную нейронную сеть (CNN) для обработки RGB-изображений[5]. Для решения проблемы перекрывающихся объектов в нейросетях применяется алгоритм подавления немаксимумов (Non-Maximum Suppression, NMS), отфильтровывающий избыточные рамки, а устойчивость к шуму достигается за счёт аугментации данных при обучении[6][7]. Среди современных монокулярных моделей выделяется Vehiclectron, а также алгоритмы 2025—2026 годов, такие как Mono3D и 3D-MOOD, направленные на повышение обобщающей способности, работу с окклюзиями и обнаружение объектов в условиях открытого набора категорий[8][9].

Датчики глубины и LiDAR

Также кубоиды получают при помощи RGB-D-изображений, то есть RGB-изображений, в которых зафиксирована глубина каждого пикселя. В этом случае компьютеру не требуется дополнительно определять глубину объектов, поскольку она уже записана в данных[10]. При работе с LiDAR основной проблемой является разреженность получаемых облаков точек, что усложняет точное определение границ и формы объектов. Для решения этой задачи применяются модели глубокого обучения, предсказывающие параметры трёхмерных ограничивающих рамок. Современные методы направлены на компенсацию разреженности данных. Одним из ключевых подходов является уплотнение облака точек и генерация «псевдо-LiDAR», когда плотность данных искусственно повышается перед этапом детектирования с использованием признаков из монокулярных RGB-изображений[11][12]. Широко применяется и мультимодальное слияние, которое объединяет разреженные данные LiDAR и плотные RGB-изображения с камер для получения более надёжных результатов обнаружения[11][12].

Стандарты разметки данных

Индустриальными стандартами разметки 3D-кубоидов в задачах автономного вождения стали такие датасеты, как KITTI и nuScenes, каждый из которых имеет свои спецификации формата аннотаций.

В датасете KITTI используется текстовый формат, где каждая строка описывает один объект с помощью 15 значений. В их число входят класс объекта, размеры, а также координаты и угол поворота, заданные относительно системы координат камеры.

В датасете nuScenes применяется формат JSON, где параметры 3D-кубоида описываются семью степенями свободы (7-DoF). В отличие от KITTI, координаты объектов представлены в глобальной системе координат, а для описания их пространственной ориентации используются кватернионы.

Применение

Кубоиды используются для построения трёхмерных карт на основе облаков точек и могут применяться в различных ситуациях: в системах дополненной реальности[13], при автоматизированном управлении автомобилями, дронами, роботами[10], для обнаружения объектов[4]. В системах автономного вождения 3D-кубоиды играют критически важную роль: они используются для создания точной трёхмерной модели окружающей среды и предотвращения столкновений, позволяя оценивать габариты, положение и траекторию движения объектов[14][15].

Кубоиды позволяют программному обеспечению анализировать сцену с помощью геометрического описания без привязки к конкретным объектам (object-agnostic approach)[2]. Для оценки планировки помещений применяется метод PixCuboid, который представляет комнату в виде единого большого кубоида. Алгоритм анализирует несколько RGB-изображений с разных ракурсов для восстановления трёхмерной геометрии пространства (стен, пола и потолка) без использования датчиков глубины. Подобное абстрактное представление структуры помещения служит базовой картой, которая востребована в приложениях дополненной реальности и для навигации роботов[16][17][18].

Точки интереса, то есть области на изображении, которые компьютер выделяет как важные для распознавания, используемые совместно с кубоидами, применяются для сопоставления изображений, идентификации помещений или сцен и распознавания экземпляров объектов. Точки интереса из трёхмерных изображений вместе с кубоидами используются для распознавания активностей, поскольку позволяют анализировать только наиболее важные аспекты сцены[4].

RGB-D-изображения применяются совместно с системами одновременной локализации и построения карты (SLAM), образуя системы RGB-D SLAM. Такие системы используются в САПР для построения трёхмерных карт на основе облаков точек[10].

Большинство промышленных инструментов для многоосевой механообработки работают с системами автоматизированного производства и рассчитаны на кубоидную рабочую область[19].

Примечания

  1. Dollár, P.; Rabaud, V.; Cottrell, G.; Belongie, S. (октябрь 2005). “Behavior Recognition via Sparse Spatio-Temporal Features”. 2-я совместная международная конференция IEEE по визуальному наблюдению и оценке производительности отслеживания и наблюдения [англ.]: 65—72. DOI:10.1109/VSPETS.2005.1570899. Дата обращения 2024-06-20. Проверьте дату в |date= (справка на английском); |access-date= требует |url= (справка)
  2. 1 2 3 Xiao, Jianxiong; Russell, Bryan C.; Torralba, Antonio (2012). “Localizing 3D Cuboids in Single-view Images”. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1. NIPS'12 [англ.]. USA: Curran Associates Inc.: 746—754. Дата обращения 2026-05-28.
  3. Transformation to Deep Learning Architectures. PubMed Central. Дата обращения: 28 мая 2026.
  4. 1 2 3 4 Aggarwal, J. K.; Xia, Lu (2013). “Spatio-temporal Depth Cuboid Similarity Feature for Activity Recognition Using Depth Camera” [англ.]: 2834—2841. Дата обращения 2026-05-28.
  5. 1 2 Deep Learning for Cuboid Detection. arXiv (2016). Дата обращения: 28 мая 2026.
  6. Non-Maximum Suppression (NMS). Ultralytics. Дата обращения: 28 мая 2026.
  7. Data Augmentation for Noise Robustness. Frontiers in Neuroinformatics. Дата обращения: 28 мая 2026.
  8. Monocular 3D Object Detection Survey. arXiv (2025). Дата обращения: 28 мая 2026.
  9. 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection. ICCV 2025. Дата обращения: 28 мая 2026.
  10. 1 2 3 Mishima, Masashi; Uchiyama, Hideaki; Thomas, Diego; Taniguchi, Rin-ichiro; Roberto, Rafael; Lima, João Paulo; Teichrieb, Veronica (6 января 2019). “Incremental 3D Cuboid Modeling with Drift Compensation”. Sensors (Базель, Швейцария) [англ.]. 19 (1): 178. DOI:10.3390/s19010178. PMC 6339002. PMID 30621340. |access-date= требует |url= (справка)
  11. 1 2 Sparse Points to Dense Clouds. arXiv (2024). Дата обращения: 28 мая 2026.
  12. 1 2 Image-Guided Semantic Pseudo-LiDAR. arXiv (2024). Дата обращения: 28 мая 2026.
  13. and, and. New calibration-free approach for augmented reality based on parameterized cuboid structure // Proceedings of the Seventh IEEE International Conference on Computer Vision : [англ.]. — сентябрь 1999. — Vol. 1. — P. 30–37. — ISBN 0-7695-0164-8. — doi:10.1109/ICCV.1999.791194.
  14. From LiDAR to Labeling: 3D Point Cloud Annotation for Autonomous Vehicles. Bobox.dev (15 мая 2025). Дата обращения: 28 мая 2026.
  15. Understanding 3D Object Detection and its Applications. Ultralytics. Дата обращения: 28 мая 2026.
  16. MultiViewRoomLayout. GitHub. Дата обращения: 28 мая 2026.
  17. Multi-view Room Layout Estimation. arXiv (2025). Дата обращения: 28 мая 2026.
  18. PixCuboid: An Optimization-Based Approach for Cuboid-Shaped Room Layout Estimation. arXiv (2025). Дата обращения: 28 мая 2026.
  19. Wang, Z. Optimal design of a linear Delta robot for the prescribed cuboid dexterous workspace // 2007 IEEE International Conference on Robotics and Biomimetics (ROBIO) : [англ.] / Z. Wang, G. Wang, S. Ji … [et al.]. — декабрь 2007. — P. 2183–2188. — ISBN 978-1-4244-1761-2. — doi:10.1109/ROBIO.2007.4522508.

Категории