Робототехника столкнулась с парадоксальным потолком: чем совершеннее сенсоры, тем менее эффективными становятся принимаемые решения. Исследование Уссамы Зенкри и Оливера Брока из Берлинского технического университета (TU Berlin) вскрывает фундаментальный изъян воплощенного ИИ (Embodied LLM). Выяснилось, что повышение качества визуальных данных — переход от абстрактных символов к детализированному потоку данных о глубине и цвете (RGB-D) — не уточняет картину мира агента, а буквально размывает его логику.
Исследователи проверили эту гипотезу на механическом пазле Lockbox. Это устройство со скрытыми зависимостями, где каждое действие меняет состояние системы нелинейно. Результаты выглядят как приговор текущим подходам к созданию «умных» датчиков. Агенты демонстрировали адекватную работу при обработке сырого видеопотока, но их результативность катастрофически падала, когда им предоставляли идеальные, символьные описания состояния (ground-truth). Вместо построения долгосрочных планов модели тонули в деталях, превращая логический вывод в хаотичный поиск паттернов там, где их не существует. По сути, высокая детализация создает для языковых моделей информационную ловушку, в которой агент зацикливается на второстепенных признаках, теряя из виду физическую суть задачи.
Самое ироничное в выводах Зенкри и Брока — роль ошибок. В ходе экспериментов они намеренно вносили шум, случайно подменяя результаты действий в восприятии модели. Оказалось, что умеренная зашумленность (вероятность ошибки около 40%) работает как катализатор успеха, увеличивая эффективность выполнения задачи в 2,85 раза по сравнению с «чистым» прогоном. Ошибки восприятия парадоксальным образом выбивают LLM из логических тупиков и бесконечных циклов повторения одних и тех же действий. Без этого внешнего импульса модель оказывается заперта в собственных ошибочных рассуждениях, порожденных избытком информации.
Для технических директоров и архитекторов систем искусственного интеллекта это исследование — повод для пересмотра стратегий. Распространенное мнение о том, что мощное оборудование и идеальные данные автоматически ведут к автономности, не выдерживает проверки реальностью. Текущие успехи многих систем могут быть не признаком развитого интеллекта, а случайным совпадением ошибок восприятия и огрехов логики. Чтобы построить по-настоящему надежные автономные системы, инженерам придется сместить фокус с погони за разрешением сенсоров на методы предварительной обработки и абстрагирования объектов. Если мы не научим когнитивные архитектуры фильтровать сенсорный поток до того, как он попадет в «мозг» модели, мы продолжим получать системы с HD-зрением и логикой уровня детского сада.