Риски квантования LLM: как сжатие моделей убивает этику ИИ

Пост-тренировочное квантование (PTQ) стало индустриальным стандартом для тех, кто стремится интегрировать тяжелые языковые модели в периферийные устройства или радикально сократить расходы на облачные вычисления. Однако за эту экономию приходится платить «налогом на безопасность». Исследователи из Meta Плаван Кумар Рат и Рахул Малиаккал обнаружили тревожную закономерность: чем сильнее сжимается модель, тем активнее в ней проявляются социальные предрассудки. Фактически, вместе с точностью весов из памяти стираются результаты обучения с подкреплением (RLHF), призванного сделать поведение ИИ этичным.

В ходе анализа, охватившего более 911 тысяч циклов инференса для моделей Qwen2.5-7B, Mistral-7B и Phi-3.5-mini, выяснилось, что «вежливость» — это самый хрупкий слой нейросети. Она разрушается значительно быстрее, чем общие когнитивные способности. Главная ловушка кроется в обманчивости стандартных метрик качества. Пока технические директора успокаивают себя стабильной перплексией (на 8 битах она растет менее чем на 0,5%), внутри модели уже происходят тектонические сдвиги. Даже на уровне 4 бит, где общая производительность кажется незыблемой, от 2,5% до 5,6% ответов, которые ранее были нейтральными, начинают транслировать стереотипы. Для бизнеса это критический риск: модель успешно проходит технический аудит, но превращается в токсичную мину замедленного действия при общении с клиентами.

Существует и точка невозврата — своеобразный «обрыв», после которого этические настройки модели просто коллапсируют. Согласно отчету, для семейств Mistral, Qwen и Phi этим порогом являются 3 бита. При таком сжатии от 6% до 21% ответов обрастают предвзятыми паттернами, а готовность модели признать некомпетентность (защитная реакция «я не знаю») падает на 17,4%. Парадоксально, но ИИ становится более самоуверенным и одновременно более зашоренным. Квантование избирательно разрушает тонкие настройки весов, отвечающие за социальные нюансы, прежде чем оно затронет жесткий логический фундамент.

Для архитекторов ИИ-решений вывод однозначен: нельзя полагаться на профиль безопасности полноразмерной модели, если в эксплуатацию запускается её сжатая копия. Текущие процессы аудита порочны, так как они фокусируются на исходной версии, а не на том «обрубке», который реально взаимодействует с пользователем. Если ваш процесс разработки предполагает переход с 16 бит на 4 бита или ниже без отдельной проверки на предвзятость, вы выпускаете в мир совершенно иную, менее предсказуемую модель. Каскадный аудит каждой квантованной версии — это не избыточная мера, а единственный способ избежать репутационной катастрофы.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеПроизводительностьMeta AI

Экономия ценой токсичности: как сжатие LLM разрушает их систему безопасности