Стандартная индустриальная практика сборки Vision-Language-Action (VLA) моделей — взять предобученную VLM и адаптировать её под робототехнические данные — фундаментально порочна. Исследователи из Университета Цинхуа и ByteDance Seed (Seed-VLA) признают, что базовые модели дают отличные пресеты для пространственного мышления, но их свежий анализ вскрывает скрытую цену обучения, которую они называют «налогом на воплощение» (embodiment tax).
Группа под руководством Цзянькэ Чжана, Юаньфэя Ло и Юйчэн Ху доказала: даже умеренная тонкая настройка на чистые действия системно выжигает мультимодальную компетенцию модели. Цифры неумолимы: как только нейросеть учится выдавать низкоуровневые моторные команды, она тут же теряет способность узнавать незнакомые объекты и адекватно реагировать на вариации в тексте. Вы не просто учите робота двигать манипулятором — вы стираете когнитивный фундамент, который должен был помочь ему ориентироваться в хаосе реального мира.
Эта деградация — результат архитектурного тупика. В текущих VLA-решениях один энкодер заставляют одновременно отвечать и за семантику, и за визуальные признаки для контроля. В биологическом зрении эти функции разнесены: за распознавание отвечает вентральный поток, а за визуально-моторный контроль — дорсальный. Как объясняет Цзяньюй Чэнь из Цинхуа, современные ИИ-модели объединяют эти пути в один, создавая конфликт, где сигналы моторного обучения буквально отравляют семантические веса. Чтобы разрешить этот хаос, команда предложила архитектуру Unified Action Model (UAM). Она вводит параллельный «дорсальный эксперт», вдохновленный биологией. Этот второй поток инициализируется из генеративной модели и обучается предсказывать визуальную динамику. UAM разделяет «смыслы» и «движения», позволяя модели осваивать сложные физические навыки, не принося в жертву внутреннюю модель мира.
Результаты UAM ставят под сомнение мейнстримную ставку на бесконечное накопление данных или заморозку весов. В экспериментах Цинхуа и ByteDance модель обучалась сквозным методом только на данных о действиях, без каких-либо ограничений по градиентам. Итог: UAM сохранила более 95% исходных мультимодальных способностей VLM, показав при этом высочайшую эффективность в манипуляциях с новыми объектами. По оценке исследователей, это доказывает: сохранение интеллекта должно обеспечиваться архитектурно, а не «костылями» в виде обработки данных. Создав выделенный «мост» для визуальной динамики, UAM позволяет модели оставаться умной, успешно справляясь с задачами физического взаимодействия.
Для разработчиков это означает одно: попытки обучать монолитные VLM для робототехники — технический тупик, где интеллект разменивают на моторику. Методология UAM подтверждает, что спасение не в объеме данных, а в переходе к двухпоточным архитектурам, которые учитывают биологическое различие между тем, «что» это за объект и «как» с ним взаимодействовать. Если продолжать использовать старые модели с одним энкодером для автономных агентов, вы добровольно платите налог, который гарантирует: ваш робот разучится думать ровно в тот момент, когда начнет действовать.