Визуальное сервоприводное управление

Визуальное сервоприводное управление (англ. visual servoing; также известно как визуальное управление роботом, vision-based robot control, VS) — это метод управления движением робота с использованием обратной связи, получаемой от видеосенсора (визуальная обратная связь[1]). Одной из первых работ по визуальному сервоприводному управлению стала публикация лабораторий SRI International в 1979 году[2].

Классификация визуального сервоприводного управления

Существует две основных конфигурации размещения камеры и исполнительного органа (руки) робота:[4]

  • Eye-in-hand (камера на руке) — вариация управления с разомкнутым контуром, когда камера закреплена на подвижном исполнительном органе и наблюдает за относительным положением цели.
  • Eye-to-hand (камера вне руки) — вариация управления с замкнутым контуром, когда камера неподвижна относительно окружающей среды и наблюдает как за целью, так и за движением руки.

Техники визуального сервоприводного управления делятся на следующие основные типы:[5][6]

  • Управление на основе изображения (IBVS, image-based visual servoing)
  • Управление на основе положения/позы (PBVS, position/pose-based visual servoing)
  • Гибридный подход

Управление IBVS (на основе изображения) было предложено Вайсом и Сандерсоном[7]. Контроль осуществляется на основании ошибки между текущими и требуемыми признаками на плоскости изображения, при этом не требуется оценка позы цели. Признаками могут быть координаты особенностей изображения, линии или моменты областей. IBVS испытывает трудности[8] при больших поворотах камеры (эффект, известный как camera retreat[9]).

PBVS (на основе позы) является модельно-ориентированной техникой (обычно с одной камерой). Здесь происходит оценка позы объекта относительно камеры, после чего формируются управляющие команды для робота. Изображения используются для извлечения признаков и их последующей оценки 3D-положения (позы объекта в декартовом пространстве), реализуя 3D-сервопривод.

Гибридные подходы используют комбинацию методов 2D и 3D сервоприводного управления. Существуют несколько разновидностей гибридного сервопривода:

  • 2,5-мерное сервоприводное управление[10]
  • Управление с разбиением движений
  • Управление с разбиением по числу степеней свободы[9]

Обзор исследований

Описание предшествующих работ подразделяется на три части:

  • Обзор существующих методов визуального сервоприводного управления.
  • Различные типы используемых признаков и их влияние на визуальное управление.
  • Анализ ошибок и устойчивости схем визуального сервопривода.

Обзор существующих методов визуального сервоприводного управления

Сервоприводные системы с использованием изображений появились в начале 1980-х годов[11], однако сам термин англ. visual servo был введён только в 1987 году.[4][5][6] По сути, визуальное сервоприводное управление использует камеру (визуальный датчик) в качестве основного сенсора для управления роботом. Существуют два главных подхода:[6] — использование информации с изображения для непосредственного управления степенями свободы (DOF) робота (Image Based Visual Servoing, IBVS); — использование геометрической интерпретации информации для оценки позы цели и параметров камеры (если известна базовая модель объекта). Классификации сервоприводных систем можно также строить по расположению камеры (eye-in-hand и hand–eye), по типу обратной связи в контуре управления (end-point-open-loop и end-point-closed-loop), а также по способу воздействия на приводы робота (прямое управление приводами или передача команд каждой оси и динамическое управление look-and-move).

Одна из ранних работ[12] предложила иерархическую схему визуального сервопривода для методов, основанных на изображении. Предполагалось, что можно выделить хорошие признаки (например, края, углы, центроиды) для построения частичной модели объекта и использовать их совместно с глобальными моделями сцены и робота. Управление было апробировано на симуляции 2- и 3- степенных манипуляторов.

В работе Феддема и др[13]. было предложено генерировать траектории задач относительно скорости изменения признаков, чтобы датчики обратной связи всегда оставались эффективными при любом перемещении робота. Предполагалось, что объекты известны заранее (например, есть CAD-модель) и все признаки могут быть надёжно извлечены.

Работа Espiau и соавт[14]. обсуждает вопросы моделирования матрицы взаимодействия, камеры, выбора визуальных признаков (точки, линии и т.д.).

В работе[15] была предложена адаптивная система управления с архитектурой look-and-move, использующая оптический поток и SSD для оценки доверия, а также стохастический контроллер с фильтрацией Калмана. Система предполагала, что плоскости камеры и признаков параллельны.

В[16] предложен подход управления скоростью с помощью якобиана (s˙ = Jv˙), а также используется фильтр Калмана с учётом ошибок при определении положения цели. Описана важность учёта кинематических и динамических эффектов, повторяемости, времени установления и запаздывания.

Критику динамики процесса рассматривает Corke[17], обсуждая влияние лагов и устойчивости, а также вопросы формирования траекторий, методологии управления осями и разработки метрик эффективности.

В работе Chaumette[18] проанализированы две основные проблемы IBVS: попадание управления в локальный минимум и достижение особенностей якобиана (сингулярностей), приводящих к неустойчивости. Предложены методы уменьшения эффектов сингулярности через анализ числа обусловленности и пространства нулей якобиана. Также отмечены связи между наличием локальных минимумов и нереализуемостью движения признаков.

Со временем появилось множество гибридных методов[4]: они предусматривают вычисление полной или частичной позы по эпиполярной геометрии с помощью нескольких обзорных камер, прямым или обучающимся/statistical-методом. Некоторые схемы используют переключение между IBVS и PBVS на основе функции Ляпунова[4]. Для таких гибридных техник требуются частичные или полные модели объектов, и используются методы выделения движения по изображению[19].

2,5-мерное визуальное сервоприводное управление (2-1/2-D), разработанное Malis и др[20]., разделяет информацию о вращениях и перемещениях; предполагается, что желаемая поза известна заранее, вращательное движение оценивается с помощью оценки гомографии (с вычислением оси и угла поворота через собственные значения), а перемещения — через отслеживание признаков. Предполагается знание глубины (depth) заранее.

Гибридная техника, разработанная Corke и Hutchinson[21][22], известна как метод с разбиением: якобиан изображения разбивается на отдельные компоненты, отвечающие за движения вдоль осей X–Y и вдоль оси Z. Наличие качественной оценки глубины критически важно для реализации этого метода.

В работе[23] задача сервопривода делится на главную (удержание признаков в поле зрения) и второстепенную задачу (фиксация точки как опорной для вывода камеры в требуемую позу); требуется исходная оценка глубины (например, по одометрии или предположению планарности объекта); второстепенная задача реализуется через параллакс.

Актуальное состояние техник визуального сервопривода, включая особенности выбора признаков и методы отслеживания, рассматривается в работе[24]. Подчёркивается важность выбора признаков, позволяющих линеаризовать и разделить степени свободы, а также вводится оценка скорости цели для повышения качества слежения.

Используемые признаки и их влияние

В большинстве исследований для визуального сервопривода используются точки на изображении как признаки[5]. В ряде работ вместо точек применялись целые регионы, линии, моменты изображения и инварианты моментов[25]. Авторы[26] предложили отслеживание текстурных областей, основанное на оценке деформации, которую эти признаки испытывают.

В работе[27] анализируется выбор признаков при управлении по оси глубины: рассматриваются, в частности, расстояние между точками и площадь объекта — показано, что оптимальная устойчивость достигается при пропорциональной зависимости ошибки по глубине.

Chaumette[28] одним из первых рассмотрел использование моментов изображения для построения матрицы взаимодействия, что позволяет декомпозировать степени свободы; вычисления усложнены, особенно вне плоскости. В дальнейшем[29] такая формулировка позволила отделять управление разными осями; также было показано, что для планарных объектов можно избежать калибровки камеры при известном глубинном параметре.

Инварианты моментов предложены в работе[30] для формирования векторной функции ошибок, инвариантной к смещениям и поворотам, далее подход был развит и обобщён в работах[31][32] с применением для непланарных объектов и виртуальных вращений для приведения признаков к плоскости камеры.

Анализ ошибок и устойчивости схем сервопривода

Espiau[33] показал на эксперименте, что IBVS относительно устойчив к ошибкам калибровки камеры, используя сопоставление точек без оценки позы. Анализируется влияние ошибок и неопределённости элементов матрицы взаимодействия. Аналогичные исследования[34] подтвердили эффективность IBVS по сравнению с классическим управлением.

Kyrki и др[35]. рассматривают распространение ошибок извлечения позы из изображения и демонстрируют, что ошибки положения на плоскости изображения пропорциональны глубине, а ошибки по оси глубины пропорциональны квадрату глубины.

Многие работы[21][22][36] отмечают, что обычно предполагается наличие только одного объекта в кадре и известность либо хотя бы частичной позы, либо точной глубины.

В работе[37] предложен метод ограниченного отслеживания ошибок задачи, а[38] определён верхний предел ошибок позиционирования из-за зашумлённости изображения.

Malis и Rives[39] провели анализ устойчивости при неопределённости в оценке глубины и показали, что для объектов с неизвестной геометрией требуется высокая точность оценки глубины.

Программное обеспечение

Примечания

Литература

Категории