Почему DPO подводит LLM: математический аудит для CTO

Массовое увлечение методом Direct Preference Optimization (DPO) как дешевой и стабильной альтернативой классическому RLHF зиждется на математическом мираже. Пока индустрия слепо внедряла DPO, считая его теоретическим эквивалентом обучения с подкреплением, исследователи из Гонконгского университета науки и технологий под руководством Чжициня Яна вскрыли неприятную правду: эта эквивалентность условна и в реальных сценариях часто рассыпается. Исследование доказывает, что DPO опирается на критическое скрытое допущение: оптимальная стратегия обязана предпочитать одобряемые человеком ответы. Когда это условие не соблюдается — а в реальной практике это норма — алгоритм перестает оптимизировать соответствие человеческим ценностям и начинает просто выжимать относительное преимущество над базовой моделью, какой бы несовершенной та ни была.

В основе проблемы лежит механика патологической конвергенции. По данным команды Яна, если опорная политика (reference policy) изначально смещена или содержит ошибки, штраф за KL-дивергенцию в структуре RLHF начинает доминировать над максизацией вознаграждения. В итоге модель просто наследует порочные предпочтения из стартовой точки. На этом этапе DPO и RLHF начинают преследовать фундаментально разные цели. Исследование демонстрирует пугающий парадокс: метрики функции потерь в DPO могут стабильно снижаться, пока модель на самом деле все чаще выбирает дефектные ответы. Мы получаем классическое «зомби-выравнивание» (zombie alignment): технические бенчмарки сигналят о прогрессе, в то время как фактическая безопасность и точность ответов деградируют.

Для техлидов и CTO здесь скрыт прямой операционный риск. Относиться к DPO как к заменяемому модулю «из коробки» без жесткого аудита опорной модели — значит сознательно копить системные ошибки. Ученые обнаружили, что DPO отдает приоритет статистически различимым паттернам поведения, а не подлинному смыслу предпочтений. Это приводит к вырожденным стратегиям, где даже «правильные» ответы могут получить околонулевую вероятность в распределении. В качестве решения группа Яна предложила метод Constrained Preference Optimization (CPO), добавляющий явные ограничения для сохранения доказуемой точности. Слепое внедрение DPO больше не является жизнеспособной стратегией для серьезных бизнес-задач. Если ваша опорная политика ошибочна, обучение через DPO не исправляет модель, а лишь доводит ошибку до совершенства.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеБольшие языковые моделиДообучение моделейБезопасность ИИ

Ловушка DPO: почему популярный метод дообучения LLM выдает желаемое за действительное