Почему библиотеки навыков мешают ИИ-агентам: данные FSU

В индустрии ИИ долгое время считалось, что создание библиотек процедурных «рецептов» или готовых навыков — это кратчайший путь к разработке по-настоящему умных автономных агентов. Однако свежее исследование Самуэля Джейкоба Чако и его коллег из Университета штата Флорида (FSU) разрушает этот миф. Выяснилось, что в сфере наступательной кибербезопасности жестко структурированные знания, призванные помогать модели, на деле превращаются в «когнитивный шум» и архитектурный балласт.

Цифры говорят сами за себя: на выборке из 84 задач внедрение библиотек навыков действительно дает средний прирост эффективности на 16,2%, но эта «средняя температура по больнице» скрывает системный провал. В 20% случаев (16 из 84 задач) производительность упала ниже базового уровня. Исследователи проанализировали 180 контрольных запусков в сценариях Capture-the-Flag (CTF) и обнаружили, что в агрессивной, динамичной среде готовые навыки скорее мешают, чем помогают. Вместо того чтобы гибко адаптироваться к ситуации, агент пытается втиснуть сложную проблему в рамки заранее заготовленного шаблона. Результат — деградация логики и неспособность выйти за пределы предписанного мануала.

Особый скепсис вызывает тот факт, что в задачах по кибербезопасности разрыв в результатах между агентом с полным набором навыков и агентом «без багажа» составил ничтожные 8,9 процентных пункта. С точки зрения статистики (p-value 0,71) этот показатель находится в зоне погрешности. Как отмечают Сювэнь Лю и соавторы, проблема кроется в избыточности: если инструмент (например, через Model Context Protocol) возвращает четко типизированные данные и качественную обратную связь от среды, ручные инструкции сверху становятся бесполезным слоем бюрократии. Более того, в сложных сценариях вроде атак по сторонним каналам (timing side-channel attacks) эти «подсказки» попросту дезинформируют модель.

Для CTO и архитекторов ИИ-систем вывод неутешителен: пора прекратить рассматривать библиотеки навыков как универсальную заплатку для «глупости» моделей. В доменах с высокой технической плотностью и быстрым фидбеком от среды добавленная стоимость таких инструкций стремится к нулю, превращаясь в источник операционных рисков. Если ваши системы и так поставляют агенту качественные сигналы из среды, навязывание библиотек процедур — это не оптимизация, а проектирование заведомо хрупкого и неповоротливого интеллекта. Настало время переходить от жестких скриптов к адаптивным механизмам автономности, иначе ваш «продвинутый» агент застрянет в собственной библиотеке в самый ответственный момент.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыКибербезопасностьБезопасность ИИПроизводительность

Крах концепции «рецептов»: почему библиотеки навыков делают ИИ-агентов слабее