Эра ручного проектирования функций вознаграждения и дорогостоящего телеуправления для гуманоидов упирается в стену масштабируемости. Исследователи из Пекинского университета и Университета Бэйхан представили SUGAR — фреймворк, который превращает обычные видео с участием людей в готовые навыки локо-манипуляции. Пока индустрия пытается масштабировать обучение через имитацию, требующее специфического оборудования и изнурительного труда операторов, Тяньшу Ву и его команда предлагают использовать то, чего в избытке — накопленные библиотеки видеоконтента.

Главная проблема обычного видео — его «грязность»: перекрытия объектов, артефакты контактов и ошибки ретаргетинга. SUGAR решает это через трехэтапный конвейер. Сначала система извлекает кинематические априорные данные о взаимодействии: траектории движения «человек-объект» и метки контактов. Затем физический «рафинатор» превращает эти сырые данные в физически осуществимые навыки, используя унифицированную награду за подражание. В финале навыки дистиллируются в рабочую политику управления, состоящую из генератора команд и трекера. По оценке авторов, такой подход избавляет от необходимости жестко воспроизводить эталонные движения, позволяя роботу адаптироваться к разной геометрии объектов — то, на чем обычно спотыкаются стандартные методы отслеживания.

На наш взгляд, ключевая ценность SUGAR — в способности к переносу в реальный мир без дополнительного обучения (zero-shot). В ходе тестов фреймворк продемонстрировал надежное выполнение задач в замкнутом цикле и, что еще важнее, автономное восстановление после сбоев при внешних помехах. Данные исследования подтверждают: производительность системы растет прямо пропорционально объему используемых видеоданных. Для владельцев робототехнического бизнеса это четкий сигнал: эпоха кустарного обучения каждого конкретного жеста заканчивается.

SUGAR фактически превращает обучение роботов в товарный продукт, заменяя сложный инженерный поиск масштабируемой обработкой видео. Разработка гуманоидов наконец-то уходит от создания узкоспециализированных лабораторных образцов в сторону универсальных агентов. Мы ожидаем, что стоимость внедрения сложных моделей поведения упадет ровно в тот момент, когда зависимость от штата операторов телеуправления сменится потребностью в вычислительных мощностях для обработки визуальных архивов.

РоботизацияМашинное обучениеКомпьютерное зрениеSUGAR