HoloMotion-1: новый подход к обучению роботов-гуманоидов

Главный тормоз современной робототехники переместился из цехов сборки в область хронического дефицита качественных данных. Традиционное обучение на основе захвата движений (MoCap) — это стерильный, дорогой и катастрофически не масштабируемый процесс. Команда Horizon Robotics под руководством Майюэ Чена и Юйчэна Вана решила, что пора перестать мучить датчики в студиях, и представила HoloMotion-1 — базовую модель, которая учится на неразмеченных видео из реального мира.

Технически HoloMotion-1 представляет собой попытку переработать хаос «дикого» видео через архитектуру Transformer с разреженной активацией экспертов (MoE). Для бизнеса это означает критически важный компромисс: разработчики получают огромную емкость модели для имитации движений без потери скорости управления в реальном времени. Как следует из отчета Horizon Robotics, система использует KV-кеширование и стратегии обучения на уровне последовательностей, чтобы отфильтровать шум видеореконструкции. Гибридный корпус данных работает как умный фильтр: масштаб интернет-видео обеспечивает разнообразие, а точечная MoCap-супервизия — необходимую точность. На выходе получается zero-shot управление всем телом (whole-body tracking), которое не требует бесконечного дообучения под каждую новую среду или задачу.

Эта методология бьет по самому больному месту — экономике разработки гуманоидов. Horizon Robotics доказывает, что для создания универсальных систем управления больше не нужны бюджеты уровня Голливуда. Данные анализа показывают, что HoloMotion-1 стабильно обходит конкурентов в точности трекинга и, что важнее, безболезненно переносится на аппаратное обеспечение. Однако не стоит обольщаться: за масштаб приходится платить неизбежными артефактами реконструкции и несовпадением доменов. Проблема переноса визуальных шумов на физические приводы остается актуальной, но сам подход к движению как к задаче предсказания последовательностей (по аналогии с LLM) выглядит как единственно жизнеспособный.

Horizon Robotics фактически признали: путь к универсальному интеллекту роботов лежит через принятие шума реального мира, а не через попытки спрятаться в точности студийных замеров. Если движение можно эффективно дистиллировать из триллионов кадров человеческой активности, цена обучения робота для склада или дома упадет на порядки. Остается вопрос физической интерпретации видеоартефактов, но «дата-барьер», кажется, окончательно пал.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

РоботизацияКомпьютерное зрениеМашинное обучениеСнижение затратHorizon Robotics

Эпоха студийных съемок прошла: HoloMotion-1 учит роботов на обычных видео из сети