Модель «зрение-язык-действие»
Моде́ль «зре́ние-язы́к-де́йствие» (VLA, англ. vision-language-action model) в области обучения роботов — это класс мультимодальных фундаментальных моделей, интегрирующих компьютерное зрение, естественный язык и действия. На основе входного изображения (или видео) окружающей среды робота и текстовой инструкции, VLA напрямую генерирует низкоуровневые действия робота, которые затем исполняются для выполнения требуемой задачи[1].
Обычно такие модели строятся на основе дообучения (fine-tuning) vision-language-модели (VLM, то есть крупная языковая модель с расширением на зрительные данные) на масштабных датасетах, где пары «визуальное наблюдение — языковая инструкция» сопоставлены с траекториями робота[2]. Такие модели используют энкодер vision-language (обычно VLM или vision transformer), переводящий изображение наблюдения и языковое описание в распределение в латентном пространстве, и декодер действий, преобразующий это представление в непрерывные выходные команды, которые могут непосредственно исполняться на роботе[3].
В июле 2023 года компания Google DeepMind впервые предложила такую концепцию, представив RT-2 — VLM, доработанную для end-to-end задач манипулирования, способную объединять машинное восприятие, рассуждение и управление[4].
Архитектура
Модели VLA обладают общей высокоуровневой архитектурой, организованной в два этапа.
- На первом этапе предварительно обученная VLM выступает в роли ядра восприятия и рассуждения, кодируя одно или несколько изображений с камеры совместно с языковой инструкцией в последовательность языковых токенов в общем латентном пространстве. VLM специально обучаются на больших мультимодальных датасетах и способны выполнять задачи обработки изображений, визуального вопросно-ответного взаимодействия и рассуждений. Для непосредственного управления роботами VLM расширяют возможностью вывода действий[5].
- На втором этапе декодер действий отображает эти токены в дискретные символы, которые затем детокенизируются в непрерывные команды робота. Эти действия кодируются аналогично языковым токенам, но непосредственно соотносятся с числом степеней свободы (DoF) исполнительного органа робота. Например, для исполнительного органа с 6 степенями свободы пространством действий считаются смещения (позиционные и угловые) и положение захвата. В RT-2 каждый вектор действия содержит 6 степеней свободы, состояние захвата и флаг завершения, все квантизированные в 256 бинов[2].
Обычно VLА строятся на основе готовых VLM, что даёт роботу заранее сформированное понимание изображений и текста. На этапе обучения модель дообучается на данных в формате (текстовая инструкция, визуальное наблюдение, траектория действий), чтобы научиться сопоставлять зрение и язык с действиями. Данные собираются с реальных роботов, в ходе телеопераций человеком или синтетически в симуляторе. Благодаря сквозному (end-to-end) обучению VLA напрямую ассоциируют высокоуровневые концепции (например, категории объектов и пространственные отношения) с низкоуровневыми командами, устраняя разбиение, характерное для традиционной робототехники[2][6].
Ключевым проектным решением служит формат кодирования действий робота.
Наиболее распространён подход с дискретными токенами («Discreate Token Output»), используемый в RT-2 и OpenVLA: каждый элемент движения кодируется как последовательность токенов, и модель учится генерировать такие последовательности аналогично тексту. Это упрощает архитектуру и процесс обучения, но дискретизация может снижать точность и разрешение траектории. RT-2 решает эту проблему с помощью специальных токенов (например, окончания сегмента действия)[2][7].
Вариант с непрерывным кодированием («Continuous Output», Diffusion/Flow), как у π0, позволяет достичь высокой ловкости и частоты управления за счёт вывода непрерывных траекторий движений через диффузионные модели или flow-matching-сети, реализующие декодер действий. π0 генерирует траектории суставов с частотой до 50 Гц. Такая стратегия масштабируемее для роботов с большим числом степеней свободы, где дискретизация становится трудоёмкой[8].
Сравнение единой и двухсистемной архитектуры в vision-language-action модели. Верхняя часть: единая архитектура VLA (end-to-end), сочетающая VLM и декодер действий; работает с текстом, изображениями и состоянием робота. Нижняя часть: двухсистемная архитектура (модульная), где VLM и декодер — отдельные подсистемы, обменивающиеся данными через общее латентное пространство. Компоненты могут работать автономно, даже на разных GPU.
VLA могут реализовываться в архитектуре единой end-to-end нейросети или как двойная система, соединяющая две модели.
Единая (monolitic) архитектура, применяемая в RT-2, OpenVLA и π0, объединяет в одном проходе семантическое понимание сцены и языковой инструкции, сразу формируя выходные действия, что минимизирует задержку и упрощает схему[2][7][8].
Двухсистемная архитектура (dual-system), применяемая в Helix и GR00T N1, разделяет обработку на две компоненты: первая выполняет восприятие картинки и инструкции (часто — более медленная), вторая — порождает действия (работает быстрее). Компоненты обучаются согласованно и сообщаются через латентное пространство, что ускоряет реакцию и ловкость, но увеличивает вычислительную сложность[9][10].
История
Robotic Transformer 2 (RT-2) создан компанией Google DeepMind в середине 2023 года и заложил парадигму vision-language-action в робототехнике. Основывается на двух передовых VLM: PaLI-X[11] и PaLM-E[12], дообученных на демонстрационных датасетах от реальных роботов. RT-2 принимает парные входы «изображение + текст» и выдаёт квантованные действия в виде дискретных токенов. В отличие от своего предшественника RT-1[13], RT-2 демонстрирует лучшую обобщаемость для новых задач и может выполнять многозвённое рассуждение (chain-of-thought)[4].
Архитектура OpenVLA: начиная с изображения и языкового описания задачи, система генерирует 7D-действия для робота[7].
OpenVLA — открытая VLA с 7 млрд параметров, представленная летом 2024 года исследователями Стэнфорда. Обучена на датасете Open X-Embodiment — совместном проекте 21 института, собравшем более миллиона эпизодов с 22 роботами. Модель объединяет признаки из DINOv2[14] и CLIP, использует языковую основу Llama-2 и выводит действия как токены. Несмотря на меньший размер по сравнению с RT-2 от Google DeepMind, OpenVLA превзошла RT-2 на ряде манипуляционных задач и поддерживает эффективное дообучение и квантизацию для малых вычислительных ресурсов[7][15][16].
Octo — облегчённая open-source generalist политика от Калифорнийского университета в Беркли, также обучалась на Open X-Embodiment и представлена в версиях на 27 и 93 млн параметров. Для кодирования текста и изображений используются языковая модель и компактная сверхточная нейросеть. В отличие от autoregressive-декодера, Octo применяет диффузионную политику, выводящую непрерывные траектории сочленений для плавного движения и быстрой адаптации. Архитектура с блочным вниманием позволяет добавлять новые наблюдения без изменения параметров[17].
TinyVLA — компактная модель VLA для быстрого вывода и эффективного обучения. Адресует вычислительные требования и зависимость от крупных датасетов, используя небольшой мультимодальный backbone с последующим дообучением на робототехнических данных. Показывает возможности более лёгких и ресурсно-экономичных VLA без ущерба архитектуре и качеству данных[18].
π0 (pi-zero) — масштабная generalist VLA, анонсированная во второй половине 2024 года стартапом Physical Intelligence[8]. Она строится на VLM Paligemma[19], объединяя энкодеры SigLIP[20] и Gemma[21] с action-экспертом, обученным на траекториях из Open X-Embodiment. Способна к кросс-эмбодимент-обобщению (разным приводам и типам роботов), использует генерацию непрерывных действий до 50 Гц через flow-matching и диффузионную политику[22]. π0-FAST расширяет модель FAST-tokenization (компрессия временного ряда с помощью дискретного косинусного преобразования)[23].
Helix, представленный в феврале 2025 года компанией Figure AI, — generalist VLA для контроля гуманоидных роботов. Впервые обеспечивает высокочастотное управление всей верхней частью: руками, кистями, корпусом, головой, пальцами. Использует двухсистемную архитектуру: System 2 (S2) — интернет-масштабируемый VLM для восприятия и понимания языка; System 1 (S1) — политику visuomotor для перевода латентных представлений S2 в команды для робота. Такое разнесение даёт и широкое обобщение, и быструю реакцию. Модель обучена на 500 часах телеопераций с автогенерируемыми текстовыми описаниями[9].
GR00T N1, выпущенный NVIDIA в марте 2025 года, внутренне схож с Helix: двухсистемная архитектура с VLM (System 2) для восприятия среды и модулем генерации моторных действий (System 1). Отличительная черта — обучение на гибридных наборах: траектории роботов, видеоролики с людьми и синтетические данные[10].
Gemini Robotics, созданная в 2025 году компанией Google DeepMind, расширяет возможности Gemini 2.0 в физический мир, добавляя активное управление роботами. Благодаря reasoning-способностям Gemini 2.0 в сочетании с обучением низкоуровневым действиям, робот может выполнять сложные задачи (например, складывание оригами, игры с картами) с высокой обобщаемостью и адаптивностью к новым платформам. В июне 2025 года была представлена облегчённая версия Gemini Robotics On-Device для автономной работы на реальном роботе с низкой задержкой и сохранением ловкости[6][24].
SmolVLA — компактная open-source VLA c 450 млн параметров, выпущенная Hugging Face, основной задачей которой стало демократизировать исследования VLA. Обучалась на полностью открытом датасете LeRobot, собранным сообществом. Несмотря на компактность, SmolVLA показала результаты сопоставимые с более крупными Octo, OpenVLA и π0. Архитектура сочетает flow-matching для непрерывного управления и асинхронный inference для разделения VLM и исполнения действий. Модель можно дообучать и использовать на одной пользовательской GPU[25][26][27].
Примечания
Литература
- Brohan, Anthony; Brown, Noah; Carbajal, Justice; Chebotar, Yevgen; Chen, Xi; Choromanski, Krzysztof; Ding, Tianli; Driess, Danny; Dubey, Avinava (28 июля 2023). “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”. arXiv:2307.15818.
- Black, Kevin; Brown, Noah; Driess, Danny; Esmail, Adnan; Equi, Michael; Finn, Chelsea; Fusai, Niccolo; Groom, Lachy; Hausman, Karol (2024). “$π_0$: A Vision-Language-Action Flow Model for General Robot Control”. arXiv:2410.24164.
- Ma, Yueen; Song, Zixing; Zhuang, Yuzheng; Hao, Jianye; King, Irwin (4 марта 2025). “A Survey on Vision-Language-Action Models for Embodied AI”. arXiv:2405.14093.