В феврале 2026 года исследователи IBM Research и UC Berkeley выпустили ITBench – бенчмарк, который реально интересует SRE, Security и FinOps. На базе MAST (Multi‑Agent System Failure Taxonomy) они прошпаршили 310 трасс трёх популярных LLM: Gemini‑3‑Flash, Kimi‑2 и GPT‑OSS‑120B. Вместо абстрактных «что‑то пошло не так» MAST выдаёт структурированные сигнатуры отказов, позволяя точно указать виновника.
Gemini‑3‑Flash падает в среднем 2,6 раз за трассу, почти всегда из‑за ошибки FM‑3.3 (Incorrect Verification) – агент объявляет победу, не проверив реальное состояние системы. GPT‑OSS‑120B показывает типичный каскадный провал: около 5,3 ошибок за запуск, когда одна неверная логика «отравляет» контекст и запускает цепочку галлюцинаций. Kimi‑2 без PR‑маски фиксирует рост преждевременных завершений на 46 % и увеличение неопределённости условий завершения на 43 %, что явно указывает на отсутствие внешних termination‑контроллеров и loop‑detectors.
Что из этого следует бизнесу? Четыре практических шага: 1. Внешняя проверка результатов – модель не должна сама себя оценивать, нужен независимый инструмент с жёстким доказательством результата. 2. Механизмы завершения и детекторы повторных вызовов – внедрить конечные автоматы, устраняющие FM‑1.5 (Termination Issues). 3. Разбор неоднозначностей на первом ветвлении графа агента – уточнять ввод сразу, чтобы снизить риск FM‑2.2. 4. Для небольших моделей включать режим «clarify‑or‑read‑only», исключающий ошибки из‑за неполного понимания задачи.
Почему это важно прямо сейчас? Мониторинг KPI отказов (FM‑3.3, FM‑1.5, Premature Termination) позволяет сократить затраты на отладку до 20 %, а регулярный аудит MAST‑сигнатур повышает надёжность автоматизации в SRE, Security и FinOps. Вместо того чтобы агентные решения были источником риска, они становятся ощутимым конкурентным преимуществом.