Модель «зрение-язык-действие»

Общая архитектура модели vision-language-action. Модель получает на вход текстовую инструкцию и изображение (наблюдение), которые кодируются в латентное представление. Декодер действий получает это представление и генерирует последовательность низкоуровневых команд для робота.

Моде́ль «зре́ние-язы́к-де́йствие» (VLA, англ. vision-language-action model) в области обучения роботов — это класс мультимодальных фундаментальных моделей, интегрирующих компьютерное зрение, естественный язык и действия. На основе входного изображения (или видео) окружающей среды робота и текстовой инструкции, VLA напрямую генерирует низкоуровневые действия робота, которые затем исполняются для выполнения требуемой задачи^[1].

Обычно такие модели строятся на основе дообучения (fine-tuning) vision-language-модели (VLM, то есть крупная языковая модель с расширением на зрительные данные) на масштабных датасетах, где пары «визуальное наблюдение — языковая инструкция» сопоставлены с траекториями робота^[2]. Такие модели используют энкодер vision-language (обычно VLM или vision transformer), переводящий изображение наблюдения и языковое описание в распределение в латентном пространстве, и декодер действий, преобразующий это представление в непрерывные выходные команды, которые могут непосредственно исполняться на роботе^[3].

В июле 2023 года компания Google DeepMind впервые предложила такую концепцию, представив RT-2 — VLM, доработанную для end-to-end задач манипулирования, способную объединять машинное восприятие, рассуждение и управление^[4].

Модели VLA обладают общей высокоуровневой архитектурой, организованной в два этапа.

На первом этапе предварительно обученная VLM выступает в роли ядра восприятия и рассуждения, кодируя одно или несколько изображений с камеры совместно с языковой инструкцией в последовательность языковых токенов в общем латентном пространстве. VLM специально обучаются на больших мультимодальных датасетах и способны выполнять задачи обработки изображений, визуального вопросно-ответного взаимодействия и рассуждений. Для непосредственного управления роботами VLM расширяют возможностью вывода действий^[5].

На втором этапе декодер действий отображает эти токены в дискретные символы, которые затем детокенизируются в непрерывные команды робота. Эти действия кодируются аналогично языковым токенам, но непосредственно соотносятся с числом степеней свободы (DoF) исполнительного органа робота. Например, для исполнительного органа с 6 степенями свободы пространством действий считаются смещения (позиционные и угловые) и положение захвата. В RT-2 каждый вектор действия содержит 6 степеней свободы, состояние захвата и флаг завершения, все квантизированные в 256 бинов^[2].

Обычно VLА строятся на основе готовых VLM, что даёт роботу заранее сформированное понимание изображений и текста. На этапе обучения модель дообучается на данных в формате (текстовая инструкция, визуальное наблюдение, траектория действий), чтобы научиться сопоставлять зрение и язык с действиями. Данные собираются с реальных роботов, в ходе телеопераций человеком или синтетически в симуляторе. Благодаря сквозному (end-to-end) обучению VLA напрямую ассоциируют высокоуровневые концепции (например, категории объектов и пространственные отношения) с низкоуровневыми командами, устраняя разбиение, характерное для традиционной робототехники^[2]^[6].

Форматы представления действий

Ключевым проектным решением служит формат кодирования действий робота.

Наиболее распространён подход с дискретными токенами («Discreate Token Output»), используемый в RT-2 и OpenVLA: каждый элемент движения кодируется как последовательность токенов, и модель учится генерировать такие последовательности аналогично тексту. Это упрощает архитектуру и процесс обучения, но дискретизация может снижать точность и разрешение траектории. RT-2 решает эту проблему с помощью специальных токенов (например, окончания сегмента действия)^[2]^[7].

Вариант с непрерывным кодированием («Continuous Output», Diffusion/Flow), как у π₀, позволяет достичь высокой ловкости и частоты управления за счёт вывода непрерывных траекторий движений через диффузионные модели или flow-matching-сети, реализующие декодер действий. π₀ генерирует траектории суставов с частотой до 50 Гц. Такая стратегия масштабируемее для роботов с большим числом степеней свободы, где дискретизация становится трудоёмкой^[8].

Архитектуры: единая vs. двухсистемная

Сравнение единой и двухсистемной архитектуры в vision-language-action модели. Верхняя часть: единая архитектура VLA (end-to-end), сочетающая VLM и декодер действий; работает с текстом, изображениями и состоянием робота. Нижняя часть: двухсистемная архитектура (модульная), где VLM и декодер — отдельные подсистемы, обменивающиеся данными через общее латентное пространство. Компоненты могут работать автономно, даже на разных GPU.

VLA могут реализовываться в архитектуре единой end-to-end нейросети или как двойная система, соединяющая две модели.

Единая (monolitic) архитектура, применяемая в RT-2, OpenVLA и π₀, объединяет в одном проходе семантическое понимание сцены и языковой инструкции, сразу формируя выходные действия, что минимизирует задержку и упрощает схему^[2]^[7]^[8].

Двухсистемная архитектура (dual-system), применяемая в Helix и GR00T N1, разделяет обработку на две компоненты: первая выполняет восприятие картинки и инструкции (часто — более медленная), вторая — порождает действия (работает быстрее). Компоненты обучаются согласованно и сообщаются через латентное пространство, что ускоряет реакцию и ловкость, но увеличивает вычислительную сложность^[9]^[10].

Robotic Transformer 2 (RT-2)

Robotic Transformer 2 (RT-2) создан компанией Google DeepMind в середине 2023 года и заложил парадигму vision-language-action в робототехнике. Основывается на двух передовых VLM: PaLI-X^[11] и PaLM-E^[12], дообученных на демонстрационных датасетах от реальных роботов. RT-2 принимает парные входы «изображение + текст» и выдаёт квантованные действия в виде дискретных токенов. В отличие от своего предшественника RT-1^[13], RT-2 демонстрирует лучшую обобщаемость для новых задач и может выполнять многозвённое рассуждение (chain-of-thought)^[4].

OpenVLA

Архитектура OpenVLA: начиная с изображения и языкового описания задачи, система генерирует 7D-действия для робота^[7].

OpenVLA — открытая VLA с 7 млрд параметров, представленная летом 2024 года исследователями Стэнфорда. Обучена на датасете Open X-Embodiment — совместном проекте 21 института, собравшем более миллиона эпизодов с 22 роботами. Модель объединяет признаки из DINOv2^[14] и CLIP, использует языковую основу Llama-2 и выводит действия как токены. Несмотря на меньший размер по сравнению с RT-2 от Google DeepMind, OpenVLA превзошла RT-2 на ряде манипуляционных задач и поддерживает эффективное дообучение и квантизацию для малых вычислительных ресурсов^[7]^[15]^[16].

Octo (Open Generalist Policy)

Octo — облегчённая open-source generalist политика от Калифорнийского университета в Беркли, также обучалась на Open X-Embodiment и представлена в версиях на 27 и 93 млн параметров. Для кодирования текста и изображений используются языковая модель и компактная сверхточная нейросеть. В отличие от autoregressive-декодера, Octo применяет диффузионную политику, выводящую непрерывные траектории сочленений для плавного движения и быстрой адаптации. Архитектура с блочным вниманием позволяет добавлять новые наблюдения без изменения параметров^[17].

TinyVLA

TinyVLA — компактная модель VLA для быстрого вывода и эффективного обучения. Адресует вычислительные требования и зависимость от крупных датасетов, используя небольшой мультимодальный backbone с последующим дообучением на робототехнических данных. Показывает возможности более лёгких и ресурсно-экономичных VLA без ущерба архитектуре и качеству данных^[18].

π0 (pi-zero)

π₀ (pi-zero) — масштабная generalist VLA, анонсированная во второй половине 2024 года стартапом Physical Intelligence^[8]. Она строится на VLM Paligemma^[19], объединяя энкодеры SigLIP^[20] и Gemma^[21] с action-экспертом, обученным на траекториях из Open X-Embodiment. Способна к кросс-эмбодимент-обобщению (разным приводам и типам роботов), использует генерацию непрерывных действий до 50 Гц через flow-matching и диффузионную политику^[22]. π₀-FAST расширяет модель FAST-tokenization (компрессия временного ряда с помощью дискретного косинусного преобразования)^[23].

Helix

Helix, представленный в феврале 2025 года компанией Figure AI, — generalist VLA для контроля гуманоидных роботов. Впервые обеспечивает высокочастотное управление всей верхней частью: руками, кистями, корпусом, головой, пальцами. Использует двухсистемную архитектуру: System 2 (S2) — интернет-масштабируемый VLM для восприятия и понимания языка; System 1 (S1) — политику visuomotor для перевода латентных представлений S2 в команды для робота. Такое разнесение даёт и широкое обобщение, и быструю реакцию. Модель обучена на 500 часах телеопераций с автогенерируемыми текстовыми описаниями^[9].

GR00T N1

GR00T N1, выпущенный NVIDIA в марте 2025 года, внутренне схож с Helix: двухсистемная архитектура с VLM (System 2) для восприятия среды и модулем генерации моторных действий (System 1). Отличительная черта — обучение на гибридных наборах: траектории роботов, видеоролики с людьми и синтетические данные^[10].

Gemini Robotics

Gemini Robotics, созданная в 2025 году компанией Google DeepMind, расширяет возможности Gemini 2.0 в физический мир, добавляя активное управление роботами. Благодаря reasoning-способностям Gemini 2.0 в сочетании с обучением низкоуровневым действиям, робот может выполнять сложные задачи (например, складывание оригами, игры с картами) с высокой обобщаемостью и адаптивностью к новым платформам. В июне 2025 года была представлена облегчённая версия Gemini Robotics On-Device для автономной работы на реальном роботе с низкой задержкой и сохранением ловкости^[6]^[24].

SmolVLA

SmolVLA — компактная open-source VLA c 450 млн параметров, выпущенная Hugging Face, основной задачей которой стало демократизировать исследования VLA. Обучалась на полностью открытом датасете LeRobot, собранным сообществом. Несмотря на компактность, SmolVLA показала результаты сопоставимые с более крупными Octo, OpenVLA и π₀. Архитектура сочетает flow-matching для непрерывного управления и асинхронный inference для разделения VLM и исполнения действий. Модель можно дообучать и использовать на одной пользовательской GPU^[25]^[26]^[27].

Brohan, Anthony; Brown, Noah; Carbajal, Justice; Chebotar, Yevgen; Chen, Xi; Choromanski, Krzysztof; Ding, Tianli; Driess, Danny; Dubey, Avinava (28 июля 2023). “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”. arXiv:2307.15818.
Black, Kevin; Brown, Noah; Driess, Danny; Esmail, Adnan; Equi, Michael; Finn, Chelsea; Fusai, Niccolo; Groom, Lachy; Hausman, Karol (2024). “$π_0$: A Vision-Language-Action Flow Model for General Robot Control”. arXiv:2410.24164.
Ma, Yueen; Song, Zixing; Zhuang, Yuzheng; Hao, Jianye; King, Irwin (4 марта 2025). “A Survey on Vision-Language-Action Models for Embodied AI”. arXiv:2405.14093.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]