Безопасность ИИ-агентов: риск отравления памяти и RAG

Современные стандарты безопасности ИИ напоминают попытку проверить надежность сейфа, взглянув на него один раз в день. Отраслевой red teaming зациклен на разовых сценариях: выдержит ли модель атаку здесь и сейчас? Однако совместное исследование Ахмада Аль-Тавахи из Virginia Tech, специалистов из Беркли и Иллинойсского университета доказывает, что такая оценка бесполезна. Проблема заключается в «лонгитюдной безопасности»: как только агент обретает долгосрочную память, он перестает быть предсказуемым инструментом и превращается в накопитель токсичного контекста.

Механика временного дрейфа работает незаметно: данные из завершенных сессий постепенно искажают фильтры модели. По данным исследователей, агенты с включенной памятью стабильно обходят контрольные показатели безопасности по мере роста истории взаимодействий. В ходе экспериментов с медицинскими записями и корпоративной почтой выяснилось, что агент начинает выдавать опасные ответы не из-за злого умысла, а из-за избытка релевантной, но неуместной информации. Например, медицинский ассистент может раскрыть конфиденциальные данные пациента при ответе на общий вопрос другого пользователя просто потому, что в его архитектуре извлечение из памяти стало приоритетнее соблюдения приватности.

Ситуация усугубляется риском «отравления памяти». Это уже не случайная утечка, а методичное управление поведением агента через серию безобидных на первый взгляд диалогов. В сценарии с ассистентом для разработчиков рутинные записи о конфигурациях сервисов постепенно нормализуют доступ к учетным данным. Если агент сохраняет инструкцию, а позже сам извлекает ее для выполнения скрипта, он может выдать секретные ключи, которые заблокировал бы в «чистой» сессии. Анализ Virginia Tech показал, что угроза обнаруживается на этапе извлечения данных из памяти еще до того, как модель сформулирует ответ. Опасность кроется в самом факте наличия «грязного» контента в доступном стеке.

Для CTO и архитекторов систем это означает конец эпохи статических аудитов. Нельзя доверять результатам проверки, проведенной при запуске, если через пятьсот сессий профиль безопасности агента деградирует до критического уровня. Архитектура RAG в её нынешнем виде — это свалка данных, требующая немедленного внедрения протоколов «селективной амнезии». Практический выход — гранулярная очистка контекста и принудительное маскирование метаданных сразу после завершения задачи. Если ваши агенты работают с вечной и некурируемой памятью, вы строите не помощника, а склад будущих судебных исков, который пополняется с каждым «успешным» запросом.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИRAG и векторный поискКибербезопасность

Эффект накопления: почему долгосрочная память делает ИИ-агентов опасными