IBM CUGA: архитектура безопасности для ИИ-агентов

Корпоративная гонка за автономными агентами наткнулась на структурный барьер. Слишком долго инженеры полагались на хрупкое искусство «набивки промптов» — попыток убедить универсальную модель вести себя правильно с помощью инструкций на естественном языке. Это оптимистичная авантюра, которая редко выдерживает реальный аудит.

Сегев Шломов и его команда в IBM Research предлагают более прагматичную и надежную альтернативу: CUGA (Constrained Unit for Generative Agents). Их фреймворк внедряет концепцию «управления через архитектуру» (Governance by Construction). Это сдвиг парадигмы, при котором безопасность ИИ рассматривается не как пожелание в диалоге, а как жесткое инженерное ограничение.

С технической стороны CUGA работает за счет отделения логики политик от цикла рассуждений модели. Вместо того чтобы надеяться, что большая языковая модель не выйдет за установленные рамки, система принудительно обеспечивает соответствие правилам через модульный слой «политика как код» (Policy-as-Code). Согласно отчету IBM, архитектура перехватывает выполнение задач агентом в пяти критических точках: контроль намерений перед началом планирования, руководство по сценариям логики, контроль инструментов на уровне API, шлюзы подтверждения человеком для ответственных решений и финальное форматирование вывода.

Такой перехват в процессе работы позволяет техническим директорам оперативно изменять права доступа. При этом не нужно прибегать к дорогостоящему и медленному процессу дообучения базовой модели каждый раз, когда комплаенс-офицер меняет требования.

Вынося управление из «черного ящика» весов модели в прозрачный программный слой, IBM решает главные проблемы корпоративного ИИ: несанкционированное использование инструментов и утечки данных. Настоящая ценность здесь заключается не просто в блокировке вредоносных запросов, а в переходе к предсказуемому и проверяемому поведению. Попытки заставить агента самостоятельно следить за этикой через системный промпт всегда были наивной стратегией для бизнеса. CUGA доказывает: если вы хотите, чтобы агент следовал правилам, не нужно просить его об этом вежливо — вы просто лишаете его технической возможности их нарушить.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИИИ в бизнесеРегулирование ИИIBM

Хватит уговаривать ИИ: IBM представила CUGA для жесткого контроля агентов