Современное обучение с подкреплением (RL) столкнулось с кризисом конформизма, который ставит под удар саму идею создания по-настоящему автономных агентов. Исследование группы Сяочжэ Ли из Шанхайской лаборатории ИИ совместно с коллегами из университетов Тунцзи и Фудань доказывает: популярные методы вроде GRPO (Group Relative Policy Optimization) неизбежно ведут к так называемому «схлопыванию моды» (mode collapse). Как только модель нащупывает один путь к вознаграждению, она бросает все ресурсы на этот сценарий, фактически убивая свой исследовательский потенциал.
Для бизнеса это означает риск приобретения хрупкой системы. ИИ-агент, знающий лишь один жестко заданный способ решения задачи, оказывается бесполезным в непредсказуемой реальности, где рабочие условия постоянно отклоняются от стерильных тренировочных паттернов. Технический застой объясняется математическим фундаментом текущих решений. В отчете «Beyond Mode Collapse: Distribution Matching for Diverse Reasoning» авторы указывают, что алгоритмы типа GRPO минимизируют обратную дивергенцию Кульбака — Лейблера (reverse KL). Эта метрика по своей природе склонна к поиску моды, что заставляет модель зацикливаться на первой же удачной траектории.
Сяочжэ Ли предлагает альтернативу — Distribution-Matching Policy Optimization (DMPO). Вместо погони за единственным выигрышным билетом DMPO аппроксимирует прямую дивергенцию (forward KL), которая стремится охватить всё распределение возможных вариантов. Выстраивая целевое распределение по методу Больцмана, DMPO заставляет нейросеть удерживать в памяти целый спектр стратегий вместо того, чтобы короновать случайного фаворита.
Превосходство такого подхода подтверждается на NP-трудных задачах, где правильных ответов может быть много, а оптимальных — единицы. По данным Шанхайской лаборатории ИИ, DMPO показал коэффициент качества (Quality Ratio) в 43,9% на текстовых бенчмарках и 43,1% на визуальных задачах, тогда как GRPO застрял на отметках 40,1% и 38,4% соответственно. Прирост в 9–12% в сложных вычислениях и уверенная работа в незнакомых сценариях доказывают: диверсификация логики — это не академическая прихоть, а фундамент надежности ИИ.
Разумеется, за интеллектуальную гибкость приходится платить. Поддержание широкого распределения вероятностей требует больших вычислительных мощностей, чем прямолинейный поиск кратчайшего пути к ответу. Остается открытым и вопрос масштабирования DMPO на сверхбольшие модели, где пространство выборки становится по-настоящему необъятным. Тем не менее, для корпоративного сектора приоритеты смещаются: эпоха поиска единственно верного ответа заканчивается. В промышленную эксплуатацию пойдут системы, понимающие весь ландшафт логических возможностей, а не те, что заучили одну дорожку к успеху.