Геометрический коллапс: почему мультимодальный ИИ теряет этику

Мультимодальные большие языковые модели (MLLM) столкнулись с системным дефектом: они не способны транслировать этические барьеры из текстовой среды в область аудио или изображений. Это не просто нехватка данных в обучающей выборке, а фундаментальный архитектурный сбой. Исследование Харбинского политехнического института и Huawei доказывает существование феномена «коллапса геометрии безопасности» (Safety Geometry Collapse). В латентном пространстве моделей защитные механизмы, выстроенные для текста, буквально схлопываются при обработке визуальных или звуковых сигналов.

Математика процесса неумолима. Как объясняют исследователи Цзяхэ Го и Яньян Чжао, при обучении формируется «вектор отказа» (refusal direction), блокирующий вредоносные запросы. Однако мультимодальный ввод провоцирует «модальный дрейф» (drift direction), который уводит репрезентации данных в серую зону. В этой области навигационные координаты этики исчезают: модель физически перестает отличать опасное намерение от безобидного промпта. Чем сильнее этот дрейф, тем выше вероятность, что ИИ послушно выполнит деструктивную инструкцию, которую он бы категорически отверг в текстовом виде.

Традиционная модерация контента и внешние программные «заплатки» здесь бессильны, так как деградация происходит на уровне представлений еще до генерации первого слова. В качестве решения команда предложила метод ReGap — адаптивную коррекцию дрейфа на этапе инференса. Этот подход не требует дообучения: он вычисляет внутренний сигнал «вредоносности» и динамически восстанавливает разделимость отказов. По сути, ReGap возвращает модель в рамки дозволенного, не жертвуя общей производительностью системы.

Для CTO и архитекторов этот кейс служит важным сигналом. Безопасность ИИ перестает быть вопросом корректной разметки данных и превращается в задачу обеспечения геометрической целостности представлений. Поверхностные фильтры создают лишь иллюзию контроля. Чтобы мультимодальные системы не игнорировали этику при первом же контакте с изображениями, необходимо внедрять глубокий контроль за выравниванием внутренних векторов в разных модальностях.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИМашинное обучениеНейросетиHuawei

Схлопывание безопасности: почему мультимодальные нейросети легко обмануть