Как SAE дешифруют стиль в Llama и Gemma: новый подход

Современные нейросети перестают быть черными ящиками — по крайней мере, в вопросах литературного стиля и эмоций. Исследователи Жоао Пауло Кавальканте Преза и Савио Сальварино Телес де Оливейра из Федерального университета Гояса (UFG) доказали: то, что мы привыкли считать «магией текста», на деле является набором конкретных вычислительных единиц. С помощью разреженных автоэнкодеров (SAE) ученые препарировали остаточные потоки Llama 3.1 8B и Gemma 2 9B, выделив в них «литературные примитивы» — изолированные признаки, отвечающие за метафоры, остранение и даже классический принцип «показывай, а не рассказывай».

Главный вывод работы: стилистические приемы закодированы внутри моделей не как размытые статистические тени, а как автономные и управляемые рычаги. Это меняет правила игры. Вместо того чтобы часами заниматься промпт-инжинирингом, пытаясь уговорить модель «писать как Хемингуэй», становится возможным прямое вмешательство в активации нейронов (steering). По сути, мы переходим от просьб к прямому нейрохирургическому управлению поведением модели на уровне внутренних весов.

В ходе деконструкции архитектур ученые выявили четыре класса признаков. Среди них — любопытный кластер «одиннадцати я», определяющий регистр первого лица, и специфические модуляторы стиля. Выяснилось, что Llama и Gemma «чувствуют» по-разному. Llama 3.1 8B прямолинейна: она активирует лексические «ворота» (naming-gates), буквально называя нужный эффект. Gemma 2 9B работает тоньше, вызывая эмоцию через описание образов и окружения. При тестировании по таксономии Коуэна-Келтнера (27 категорий эмоций) Llama достигла стопроцентного покрытия за счет комбинации «рецептов» признаков. Gemma споткнулась лишь на «обожании», закрыв 23 позиции. Такая композиционная природа подтверждает аксиому: сложные чувства в ИИ — это не магия, а математическая сумма базовых признаков.

Методология UFG выглядит убедительно: трехэтапная валидация включала проекцию словаря через logit-lens и проверку чистоты признаков панелью из пяти нейросетевых судей. Исследователи обнаружили и «тень» разработчиков — специфический признак, максимально нагруженный в процессе обучения с подкреплением на основе отзывов людей (RLHF). Он отвечает за ту самую пресную персону «полезного помощника», которая при перегрузке начинает генерировать вымученный эмоциональный контент. Несмотря на то что поиск признаков теперь занимает всего 15 минут на одном графическом процессоре, вопрос масштабируемости этих находок на тяжелые модели уровня 405B остается открытым. Впрочем, фундамент заложен: интерпретируемость наконец-то дает бизнесу надежные инструменты контроля вместо шаманства с текстом.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиНейросетиБезопасность ИИMeta AI

Математика стиля: как SAE превращают творчество нейросетей в точную науку