Гроккинг в трансформерах: управление через Weight Decay

Обучение трансформеров на задачах модульной арифметики долгое время напоминало «черный ящик»: модели внезапно совершали рывок от слепого зазубривания к логическому обобщению. Этот феномен, известный как «гроккинг», перестал быть мистическим озарением нейросети. Исследование Лаки Верма доказывает, что Weight Decay (WD) — это не просто вспомогательный регуляризатор для «причесывания» весов, а фундаментальный рычаг управления. Именно он определяет границу между бессмысленной памятью, фазой развития и полным коллапсом системы.

На выборке моделей от 0,82 млн до 85 млн параметров Верма нащупал критический порог λc = 0,0158. Опуститесь ниже этого значения, и модель навсегда застрянет в режиме меморизации с нулевым шансом на понимание структуры данных. Поднимитесь выше — и вы принудительно переводите архитектуру в режим развития, где вероятность гроккинга достигает 100%. Причем время этого «озарения» теперь поддается математическому прогнозу: оно подчиняется степенному закону с эмпирическим показателем ν = 0,757. Вместо того чтобы гадать на кофейной гуще, инженеры получают формулу расчета ресурсов.

Главная проблема контроля таких переходов — запредельная стоимость вычисления ландшафта потерь. Исследование предлагает изящное и бюджетное решение: два метода онлайн-диагностики через анализ активаций внимания. Косинусное сходство голов внимания и стандартное отклонение энтропии позволяют мониторить динамику в реальном времени. В диапазоне λ от 0,1 до 2,0 время достижения гроккинга сокращается на порядок — с 1090 до 83 эпох. Однако избыточный фанатизм вреден: при λ = 10 наступает коллапс, когда паттерны внимания становятся идентичными, превращая модель в бесполезный массив данных. Что характерно, этот механизм универсален: архитектура Mamba демонстрирует критический порог λc = 0,0144, почти идентичный показателям трансформеров.

Для бизнеса это означает конец эпохи интуитивного тюнинга и переход к жесткому инженерному расчету. Использование легковесных метрик позволяет на ранних этапах понять, учится ли специализированная модель извлекать логику или просто сжигает GPU-часы, заучивая обучающую выборку. В индустрии, где стоимость обучения растет экспоненциально, способность принудительно «включить» понимание через калибровку WD становится ключевым фактором выживания проекта. Либо вы управляете фазовым переходом, либо ваш бюджет на вычисления превращается в безвозвратные потери.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеНейросетиСнижение затратПроизводительность

Математика озарения: как заставить нейросеть понимать, а не зазубривать