Уязвимость архитектуры Mamba: атаки на скрытые состояния

Пока индустрия восторженно обсуждает энергоэффективность архитектур Mamba и Mamba-2 как замену «прожорливым» трансформерам, исследователи из Гентского университета (Ghent University–imec) обнаружили в них критическую брешь. Работа Александра Ле Мерсье, Криса Девелдера и Томаса Деместера описывает атаку Hidden State Poisoning Attacks (HiSPA) — метод необратимой перезаписи скрытых состояний модели через короткие триггер-фразы. Суть проблемы заключается в физике процесса: в отличие от механизма внимания (Attention), который держит перед глазами весь контекст, рекуррентная природа моделей пространства состояний (SSM) полагается на сжатый «внутренний итог». Один точный удар — и этот итог обнуляется, вызывая у нейросети частичную амнезию.

Для проверки гипотезы авторы представили бенчмарк ROBENCH-25, и результаты выглядят приговором для текущих реализаций SSM в условиях адверсариальных атак. Особенно пострадала Jamba-1.7-Mini от AI21 Labs — гибридная модель на 52 млрд параметров. В ходе тестов нейросеть полностью теряла способность извлекать информацию после столкновения с HiSPA-триггерами, в то время как классические трансформеры сохраняли стабильность. Выяснилось, что механизм селективности, обеспечивающий Mamba линейную сложность, становится её ахиллесовой пятой: скрытое состояние можно буквально «вымыть» с помощью атаки типа «черный ящик», не требующей сложной оптимизации. Это не просто теоретический баг, а инструмент, кратно усиливающий успех классических промпт-инъекций.

Для бизнеса, внедряющего RAG-системы или автоматическую аналитику документов, это означает прямую угрозу безопасности. Злоумышленнику достаточно вшить триггер в PDF-файл или научную статью, чтобы «ослепить» ИИ к целым разделам текста. Последствия варьируются от критических ошибок авторизации до обхода защитных фильтров (guardrails) и игнорирования конфиденциальных пометок. В агентских системах, где планирование напрямую зависит от чистоты контекста, такая уязвимость фатальна. Техлидам стоит признать: пока методы защиты скрытых состояний не догонят архитектурные амбиции SSM, любая экономия на вычислениях будет идти в комплекте с фундаментальной хрупкостью системы перед целенаправленным «отравлением» данных.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИБольшие языковые моделиКибербезопасностьRAG и векторный поискMamba

Ахиллесова пята Mamba: как одна фраза вызывает амнезию у нейросети