Эффективность ИИ-агентов в POMDP: уроки для CTO

Бесконечное наращивание вычислительных мощностей и расширение контекста ИИ-агентов больше не гарантирует результат в условиях реального «боя». Исследование ученых из Карлтонского университета и Defence R&D Canada, включая Игоря Богданова и Адриана Тейлора, доказывает: в состязательных сценариях с неполными данными — так называемых POMDP — традиционное масштабирование быстро упирается в стену убывающей доходности. Тестирование в киберзащитном фреймворке CybORG CAGE-2 показало, что работа в «грязных» средах — это игра с нулевой суммой, где главной задачей становится не победа, а минимизация фатальных ошибок. Когда агент сталкивается с активным противодействием, попытка заставить его «думать глубже» часто превращается в бессмысленное сжигание бюджета без реального операционного профита.

Ключевой инсайт исследователей — феномен «каскада размышлений» (deliberation cascade). Выяснилось, что распределение сложных инструментов рассуждения внутри иерархии агента не усиливает систему, а деградирует ее. Согласно отчету, комбинация самокритики и цепочек рассуждений (CoT) внутри иерархических структур привела к падению средних результатов до 3,4 раза при росте потребления токенов в 2,7 раза на пяти семействах моделей. Это ставит крест на идее, что архитектурную сложность можно победить просто мощным промптом. Самым эффективным рычагом оказалась не глубина мысли, а четкость восприятия: внедрение детерминированного программного слоя для отслеживания состояния системы (state-tracking) улучшило показатели на 76% по сравнению с работой на «сырых» данных.

Для бизнеса и технических директоров это исследование фиксирует математический предел: масштабирование инференса в динамических системах имеет потолок. Если вы строите систему для кибербезопасности или рыночной конкуренции, приоритетом должна стать программная инфраструктура и жесткая иерархическая декомпозиция задач, а не попытки выжать «сверхчеловеческий разум» из языковой модели. Эффективность сегодня лежит в плоскости архитектурных ограничений, которые не позволяют инструментам рассуждения конфликтовать друг с другом. Инвестиции в управление состоянием системы окупаются значительно быстрее, чем бесконечные циклы саморефлексии агентов.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыКибербезопасностьПроизводительностьИИ в бизнесе

Предел «разумности»: почему масштабирование ИИ-агентов больше не работает