Современные бенчмарки для AI-агентов безнадежно оторваны от реальности, поскольку тестируют модели в стерильных условиях «чистого листа». В реальной ИТ-инфраструктуре системный администратор не работает в вакууме — он разгребает технический долг и конфликтующие конфигурации. Исследовательская группа под руководством Юйсяна Лая и Хуасю Яо из Университета Северной Каролины в Чапел-Хилл справедливо отмечает: ручное создание тестовых сценариев обходится слишком дорого, а статическая проверка промптов не фиксирует критические сбои, возникающие при взаимодействии агента с реальным состоянием системы (persistent state).

Как следует из отчета Лая и коллег, опубликованного на arXiv, рабочие процессы в интерфейсе командной строки (CLI) требуют от моделей навигации по уже инициализированным состояниям и замусоренным директориям. Большинство текущих тестов игнорируют то, как агент справляется с устаревшими артефактами или частично выполненными задачами. На наш взгляд, это создает опасную иллюзию надежности: в лаборатории агент выглядит гением, а в промышленной эксплуатации превращается в цифровую катастрофу.

Для решения этой проблемы был разработан ClawForge — фреймворк, который компилирует шаблоны сценариев и заземленные слоты в воспроизводимые спецификации задач. Главное концептуальное отличие: ClawForge оценивает не то, насколько команда агента похожа на эталонный текст, а нормализованное конечное состояние системы и наблюдаемые побочные эффекты. Методология смещает фокус с того, «что агент сказал», на то, «что на самом деле изменилось в системе». Это единственный здравый способ валидации для автономных систем, которым планируют доверить управление инфраструктурой.

Результаты стресс-теста ClawForge-Bench, охватившего семь ведущих моделей в 17 сценариях, отрезвляют. Даже лучший исполнитель набрал лишь 45,3% точности. В задачах на исправление существующих ошибок в состоянии системы (wrong-state replacement) все модели без исключения провалились ниже отметки в 17%. Данные показывают, что успех зависит не от мощности большой языковой модели, а от того, догадается ли агент проверить текущее состояние перед выполнением команды. Разрыв в производительности между «осторожными» и «самоуверенными» моделями достигает 90%.

Для ИТ-директоров и технических директоров это четкий сигнал: многие провалы — это не явные ошибки, а «почти попадания», когда агент вроде бы выполнил задачу, но оставил после себя гору мусорных данных. Прежде чем выдавать автономному агенту права на запись в вашей рабочей консоли, необходимо проверить его способность разрешать конфликты состояний, а не просто умение следовать стерильным инструкциям из учебника.

ИИ-агентыБезопасность ИИАвтоматизацияБольшие языковые моделиClawForge