Кубоид (компьютерное зрение)

Кубоид (англ. cuboid) — это небольшой пространственно-временной объём, выделяемый из изображения с целью распознавания поведения или активности^[1]. Кубоид рассматривается как базовый геометрический примитив и используется для представления трёхмерных объектов в трёхмерном представлении плоского, двумерного изображения^[2]. В современном контексте компьютерного зрения термин фактически является синонимом трёхмерной ограничивающей рамки (англ. 3D bounding box), которая описывает положение, физические размеры и ориентацию объекта в пространстве. Историческое использование кубоидов как пространственно-временных объёмов для распознавания действий в видео трансформировалось: на смену ручному выделению признаков пришли архитектуры глубокого обучения, такие как трёхмерные свёрточные нейронные сети (3D CNN) и трансформеры^[3].

Кубоиды могут быть выделены как из двумерных, так и из трёхмерных изображений^[4].

Классические подходы

Один из способов получения кубоидов использует базы данных так называемых примитивов сцены, представляющих собой коллекции изображений, где уже выделены кубоиды. С помощью инструментов машинного обучения такие базы анализируются компьютерами для выявления условий появления кубоидов, после чего становится возможным автоматически выделять кубоиды и на других изображениях^[2].

Процесс выделения кубоидов чувствителен к изменению цвета и освещённости, перекрываниям и наличию фонового "шума". Поэтому компьютерам сложно выделять кубоиды объектов, обладающих многими цветами, неоднородной освещённостью либо частично перекрытых, а также при большом количестве посторонних объектов на фоне. Это, в частности, связано с относительной простотой используемых алгоритмов^[4]. Впоследствии классические методы уступили место сквозному глубокому обучению из-за низкой устойчивости к сложным условиям^[5].

Глубокое обучение

Нейросетевые подходы превосходят классические алгоритмы в точности локализации кубоидов. Одной из таких моделей является Deep Cuboid Detector (2016), которая использует сквозную свёрточную нейронную сеть (CNN) для обработки RGB-изображений^[5]. Для решения проблемы перекрывающихся объектов в нейросетях применяется алгоритм подавления немаксимумов (Non-Maximum Suppression, NMS), отфильтровывающий избыточные рамки, а устойчивость к шуму достигается за счёт аугментации данных при обучении^[6]^[7]. Среди современных монокулярных моделей выделяется Vehiclectron, а также алгоритмы 2025—2026 годов, такие как Mono3D и 3D-MOOD, направленные на повышение обобщающей способности, работу с окклюзиями и обнаружение объектов в условиях открытого набора категорий^[8]^[9].

Датчики глубины и LiDAR

Также кубоиды получают при помощи RGB-D-изображений, то есть RGB-изображений, в которых зафиксирована глубина каждого пикселя. В этом случае компьютеру не требуется дополнительно определять глубину объектов, поскольку она уже записана в данных^[10]. При работе с LiDAR основной проблемой является разреженность получаемых облаков точек, что усложняет точное определение границ и формы объектов. Для решения этой задачи применяются модели глубокого обучения, предсказывающие параметры трёхмерных ограничивающих рамок. Современные методы направлены на компенсацию разреженности данных. Одним из ключевых подходов является уплотнение облака точек и генерация «псевдо-LiDAR», когда плотность данных искусственно повышается перед этапом детектирования с использованием признаков из монокулярных RGB-изображений^[11]^[12]. Широко применяется и мультимодальное слияние, которое объединяет разреженные данные LiDAR и плотные RGB-изображения с камер для получения более надёжных результатов обнаружения^[11]^[12].

Индустриальными стандартами разметки 3D-кубоидов в задачах автономного вождения стали такие датасеты, как KITTI и nuScenes, каждый из которых имеет свои спецификации формата аннотаций.

В датасете KITTI используется текстовый формат, где каждая строка описывает один объект с помощью 15 значений. В их число входят класс объекта, размеры, а также координаты и угол поворота, заданные относительно системы координат камеры.

В датасете nuScenes применяется формат JSON, где параметры 3D-кубоида описываются семью степенями свободы (7-DoF). В отличие от KITTI, координаты объектов представлены в глобальной системе координат, а для описания их пространственной ориентации используются кватернионы.

Кубоиды используются для построения трёхмерных карт на основе облаков точек и могут применяться в различных ситуациях: в системах дополненной реальности^[13], при автоматизированном управлении автомобилями, дронами, роботами^[10], для обнаружения объектов^[4]. В системах автономного вождения 3D-кубоиды играют критически важную роль: они используются для создания точной трёхмерной модели окружающей среды и предотвращения столкновений, позволяя оценивать габариты, положение и траекторию движения объектов^[14]^[15].

Кубоиды позволяют программному обеспечению анализировать сцену с помощью геометрического описания без привязки к конкретным объектам (object-agnostic approach)^[2]. Для оценки планировки помещений применяется метод PixCuboid, который представляет комнату в виде единого большого кубоида. Алгоритм анализирует несколько RGB-изображений с разных ракурсов для восстановления трёхмерной геометрии пространства (стен, пола и потолка) без использования датчиков глубины. Подобное абстрактное представление структуры помещения служит базовой картой, которая востребована в приложениях дополненной реальности и для навигации роботов^[16]^[17]^[18].

Точки интереса, то есть области на изображении, которые компьютер выделяет как важные для распознавания, используемые совместно с кубоидами, применяются для сопоставления изображений, идентификации помещений или сцен и распознавания экземпляров объектов. Точки интереса из трёхмерных изображений вместе с кубоидами используются для распознавания активностей, поскольку позволяют анализировать только наиболее важные аспекты сцены^[4].

RGB-D-изображения применяются совместно с системами одновременной локализации и построения карты (SLAM), образуя системы RGB-D SLAM. Такие системы используются в САПР для построения трёхмерных карт на основе облаков точек^[10].

Большинство промышленных инструментов для многоосевой механообработки работают с системами автоматизированного производства и рассчитаны на кубоидную рабочую область^[19].

↑ Dollár, P.; Rabaud, V.; Cottrell, G.; Belongie, S. (октябрь 2005). “Behavior Recognition via Sparse Spatio-Temporal Features”. 2-я совместная международная конференция IEEE по визуальному наблюдению и оценке производительности отслеживания и наблюдения [англ.]: 65—72. DOI:10.1109/VSPETS.2005.1570899. Дата обращения 2024-06-20. Проверьте дату в |date= (справка на английском); |access-date= требует |url= (справка)
↑ ¹ ² ³ Xiao, Jianxiong; Russell, Bryan C.; Torralba, Antonio (2012). “Localizing 3D Cuboids in Single-view Images”. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1. NIPS'12 [англ.]. USA: Curran Associates Inc.: 746—754. Дата обращения 2026-05-28.
↑ Transformation to Deep Learning Architectures (неопр.). PubMed Central. Дата обращения: 28 мая 2026.
↑ ¹ ² ³ ⁴ Aggarwal, J. K.; Xia, Lu (2013). “Spatio-temporal Depth Cuboid Similarity Feature for Activity Recognition Using Depth Camera” [англ.]: 2834—2841. Дата обращения 2026-05-28.
↑ ¹ ² Deep Learning for Cuboid Detection (неопр.). arXiv (2016). Дата обращения: 28 мая 2026.
↑ Non-Maximum Suppression (NMS) (неопр.). Ultralytics. Дата обращения: 28 мая 2026.
↑ Data Augmentation for Noise Robustness (неопр.). Frontiers in Neuroinformatics. Дата обращения: 28 мая 2026.
↑ Monocular 3D Object Detection Survey (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.
↑ 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection (неопр.). ICCV 2025. Дата обращения: 28 мая 2026.
↑ ¹ ² ³ Mishima, Masashi; Uchiyama, Hideaki; Thomas, Diego; Taniguchi, Rin-ichiro; Roberto, Rafael; Lima, João Paulo; Teichrieb, Veronica (6 января 2019). “Incremental 3D Cuboid Modeling with Drift Compensation”. Sensors (Базель, Швейцария) [англ.]. 19 (1): 178. DOI:10.3390/s19010178. PMC 6339002. PMID 30621340. |access-date= требует |url= (справка)
↑ ¹ ² Sparse Points to Dense Clouds (неопр.). arXiv (2024). Дата обращения: 28 мая 2026.
↑ ¹ ² Image-Guided Semantic Pseudo-LiDAR (неопр.). arXiv (2024). Дата обращения: 28 мая 2026.
↑ and, and. New calibration-free approach for augmented reality based on parameterized cuboid structure // Proceedings of the Seventh IEEE International Conference on Computer Vision : [англ.]. — сентябрь 1999. — Vol. 1. — P. 30–37. — ISBN 0-7695-0164-8. — doi:10.1109/ICCV.1999.791194.
↑ From LiDAR to Labeling: 3D Point Cloud Annotation for Autonomous Vehicles (неопр.). Bobox.dev (15 мая 2025). Дата обращения: 28 мая 2026.
↑ Understanding 3D Object Detection and its Applications (неопр.). Ultralytics. Дата обращения: 28 мая 2026.
↑ MultiViewRoomLayout (неопр.). GitHub. Дата обращения: 28 мая 2026.
↑ Multi-view Room Layout Estimation (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.
↑ PixCuboid: An Optimization-Based Approach for Cuboid-Shaped Room Layout Estimation (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.
↑ Wang, Z. Optimal design of a linear Delta robot for the prescribed cuboid dexterous workspace // 2007 IEEE International Conference on Robotics and Biomimetics (ROBIO) : [англ.] / Z. Wang, G. Wang, S. Ji … [et al.]. — декабрь 2007. — P. 2183–2188. — ISBN 978-1-4244-1761-2. — doi:10.1109/ROBIO.2007.4522508.

[1] Dollár, P.; Rabaud, V.; Cottrell, G.; Belongie, S. (октябрь 2005). “Behavior Recognition via Sparse Spatio-Temporal Features”. 2-я совместная международная конференция IEEE по визуальному наблюдению и оценке производительности отслеживания и наблюдения [англ.]: 65—72. DOI:10.1109/VSPETS.2005.1570899. Дата обращения 2024-06-20. Проверьте дату в |date= (справка на английском); |access-date= требует |url= (справка)

[Xiao2012-2] ¹ ² ³ Xiao, Jianxiong; Russell, Bryan C.; Torralba, Antonio (2012). “Localizing 3D Cuboids in Single-view Images”. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1. NIPS'12 [англ.]. USA: Curran Associates Inc.: 746—754. Дата обращения 2026-05-28.

[PMC12932818-3] Transformation to Deep Learning Architectures (неопр.). PubMed Central. Дата обращения: 28 мая 2026.

[Aggarwal2013-4] ¹ ² ³ ⁴ Aggarwal, J. K.; Xia, Lu (2013). “Spatio-temporal Depth Cuboid Similarity Feature for Activity Recognition Using Depth Camera” [англ.]: 2834—2841. Дата обращения 2026-05-28.

[Arxiv1611-5] ¹ ² Deep Learning for Cuboid Detection (неопр.). arXiv (2016). Дата обращения: 28 мая 2026.

[NMSUltralytics-6] Non-Maximum Suppression (NMS) (неопр.). Ultralytics. Дата обращения: 28 мая 2026.

[FrontiersAugmentation-7] Data Augmentation for Noise Robustness (неопр.). Frontiers in Neuroinformatics. Дата обращения: 28 мая 2026.

[Mono3D2025-8] Monocular 3D Object Detection Survey (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.

[3DMOOD2025-9] 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection (неопр.). ICCV 2025. Дата обращения: 28 мая 2026.

[Mishima2019-10] ¹ ² ³ Mishima, Masashi; Uchiyama, Hideaki; Thomas, Diego; Taniguchi, Rin-ichiro; Roberto, Rafael; Lima, João Paulo; Teichrieb, Veronica (6 января 2019). “Incremental 3D Cuboid Modeling with Drift Compensation”. Sensors (Базель, Швейцария) [англ.]. 19 (1): 178. DOI:10.3390/s19010178. PMC 6339002. PMID 30621340. |access-date= требует |url= (справка)

[SparseToDense2024-11] ¹ ² Sparse Points to Dense Clouds (неопр.). arXiv (2024). Дата обращения: 28 мая 2026.

[ImagePseudoLiDAR2024-12] ¹ ² Image-Guided Semantic Pseudo-LiDAR (неопр.). arXiv (2024). Дата обращения: 28 мая 2026.

[13] and, and. New calibration-free approach for augmented reality based on parameterized cuboid structure // Proceedings of the Seventh IEEE International Conference on Computer Vision : [англ.]. — сентябрь 1999. — Vol. 1. — P. 30–37. — ISBN 0-7695-0164-8. — doi:10.1109/ICCV.1999.791194.

[BoboxAD2025-14] From LiDAR to Labeling: 3D Point Cloud Annotation for Autonomous Vehicles (неопр.). Bobox.dev (15 мая 2025). Дата обращения: 28 мая 2026.

[Ultralytics3D-15] Understanding 3D Object Detection and its Applications (неопр.). Ultralytics. Дата обращения: 28 мая 2026.

[PixCuboidGH-16] MultiViewRoomLayout (неопр.). GitHub. Дата обращения: 28 мая 2026.

[PixCuboidMultiView-17] Multi-view Room Layout Estimation (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.

[PixCuboidArxiv-18] PixCuboid: An Optimization-Based Approach for Cuboid-Shaped Room Layout Estimation (неопр.). arXiv (2025). Дата обращения: 28 мая 2026.

[19] Wang, Z. Optimal design of a linear Delta robot for the prescribed cuboid dexterous workspace // 2007 IEEE International Conference on Robotics and Biomimetics (ROBIO) : [англ.] / Z. Wang, G. Wang, S. Ji … [et al.]. — декабрь 2007. — P. 2183–2188. — ISBN 978-1-4244-1761-2. — doi:10.1109/ROBIO.2007.4522508.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Кубоид (компьютерное зрение)

Методы детекции

Классические подходы

Глубокое обучение

Датчики глубины и LiDAR

Стандарты разметки данных

Применение

Примечания

Категории