Как трансформеры создают карты логических правил: решение проблемы

Скептический миф о «стохастических попугаях», которые лишь имитируют человеческую речь без понимания сути, наталкивается на жесткое математическое сопротивление. Свежее исследование Романа Князева и Натанаэля Фижалко из Университета Бордо и CNRS доказывает: трансформеры не просто подбирают вероятности, они спонтанно выстраивают структурированные внутренние модели мира. Эксперимент с восьмислойным трансформером, обученным решать судоку, показал, что модель самостоятельно пересобрала логику задачи в разреженную и моносемантичную систему представлений.

В отличие от ранних работ вроде Othello-GPT, где нейросеть просто отслеживала состояние игрового поля, здесь зафиксирована более глубокая «модель мира субструктур». Исследователи обнаружили, что ИИ не воспринимает сетку как набор из 81 изолированной ячейки. Вместо этого модель группирует данные вокруг функциональных ограничений — строк, столбцов и блоков. По сути, архитектура трансформера адаптируется под алгебраическую структуру домена, а не просто зазубривает визуальное расположение цифр. Это фундаментальный сдвиг: нейросеть «понимает» правила игры через их математическую взаимосвязь.

Чтобы вскрыть этот механизм, Князев и Фижалко использовали инструментарий механистической интерпретируемости, включая методику probe-and-patch, популяризированную Нилом Нандой. Результатом реверс-инжиниринга стало обнаружение логической цепи naked-single. Это специализированная группа нейронов в финальном слое MLP, работающая как логический вентиль: она срабатывает только тогда, когда для конкретной клетки остается единственный верный вариант. Это прямое подтверждение гипотезы линейных представлений — сложные логические концепты кодируются как конкретные направления в пространстве активаций. Трансформер не просто «угадал», что после последовательности цифр должна идти четверка; он сконструировал внутренний калькулятор, проверяющий уникальность числа в ряду и квадрате.

Для бизнеса этот переход от поверхностного паттерн-матчинга к структурному моделированию — ключ к решению проблемы «черного ящика» в критически важных отраслях. Если логика модели линейна и модульна, мы получаем реальный шанс на аудит ИИ-агентов в логистике или юридическом консалтинге. Вместо того чтобы гадать над результатом, инженеры могут верифицировать внутренние «карты правил». Зная, как выглядит цепь проверки ограничений, можно гарантировать соблюдение нормативных или физических лимитов еще до того, как модель примет решение. Чем жестче условия задачи, тем более чистую и интерпретируемую внутреннюю геометрию выстраивает трансформер для её решения.

Мы больше не строим догадки о том, понимает ли ИИ правила — мы видим их в геометрии самой модели. Исследование доказывает, что даже компактные восьмислойные системы способны на сложное алгоритмическое рассуждение. Для тех, кто управляет внедрением технологий, это означает смену парадигмы: путь к доверенным системам лежит не через увеличение числа параметров, а через дешифровку внутренних активаций. Дистанция между машиной, которая имитирует, и машиной, которая рассуждает, сокращается до набора измеримых линейных векторов в остаточном потоке данных.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектНейросетиБезопасность ИИМашинное обучение

Внутри черного ящика: как трансформеры обучаются логике на самом деле