Бэкдоры в оптимизации LLM: почему безопасных весов мало

В индустрии ИИ принято считать, что компиляция вычислительного графа — например, через стандартный torch.compile — это своего рода «бесплатный обед» для инженера. Мы берем готовые веса модели, объединяем операторы, планируем выполнение кернелов и получаем существенный прирост скорости без изменения внутренней логики. Однако новое исследование ученых из Шанхайского университета транспорта, Бэйханского университета и сингапурского Наньяна доказывает: вера в математическую эквивалентность этих процессов ошибочна. Численные побочные эффекты и микроскопические сдвиги при операциях с плавающей точкой стали идеальной средой для внедрения скрытых уязвимостей.

Механика атаки, которую авторы во главе с Ифэй Ваном и Тяньлинь Ли называют «бэкдором, триггерируемым оптимизацией», изящна в своей коварности. Атакующий обучает модель таким образом, чтобы в обычном режиме исполнения (eager mode) она вела себя безупречно. Но как только инженер включает оптимизацию для промышленной эксплуатации, специфические перестановки в цепочке вычислений активируют скрытый триггер. В ходе тестов на четырех популярных опенсорсных LLM успех атаки достигал 90%, при этом точность на чистых данных оставалась эталонной. Для систем мониторинга такая модель выглядит как безупречный актив, который внезапно «сходит с ума» только в боевых условиях.

Это открытие фактически обнуляет текущие стандарты аудита. Сегодня технический директор может скачать чекпоинт с Hugging Face, провести тщательный ред-тиминг и статический анализ весов, не обнаружив ни одной аномалии. Ловушка захлопнется позже — в момент развертывания на сервере, когда ради повышения пропускной способности будет запущен компилятор. Поскольку атака не требует взлома самого компилятора или аппаратного обеспечения, она паразитирует на стандартных инструментах, которые делают ИИ-бизнес коммерчески выгодным.

Пришло время признать: проверка статических весов — это иллюзия контроля. Разрыв между «доверенным» исходным кодом и оптимизированным бинарным файлом становится слишком велик. Для бизнеса это означает острую необходимость перехода к верификации всего стека исполнения. Если ваш аудит безопасности ограничивается бенчмарками на неоптимизированной модели, вы оставляете дверь открытой для атак, которые активируются одним переключателем в конфигурации инфраструктуры.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИКибербезопасностьПроизводительность

Скрытая угроза оптимизации: как бэкдоры в LLM обходят аудит безопасности