Почему 10 трлн токенов кода не учат нейросети логике

Долгое время в индустрии процветал своеобразный «карго-культ»: считалось, что если загрузить в нейросеть как можно больше кода с GitHub, она магическим образом научится рассуждать на уровне Аристотеля. Однако масштабный эксперимент на 10 триллионах токенов, проведенный Юзе Чжао, Кай Чжаном и их коллегами из Университета науки и технологий Китая (USTC) и Ant Group, разбивает эту догму вдребезги. Исследователи применили методологию тонкого разделения областей (fine-grained domain separation), изолировав влияние разных типов данных, и выяснили неприятную правду: чистый исполняемый код отлично учит модель писать программы, но практически бесполезен для развития универсального интеллекта.

Выяснилось, что избыток кода в обучающей выборке не просто бесполезен, а вреден — он вступает в прямую конкуренцию за «веса» модели с задачами на эрудицию и понимание контекста. Как следует из отчета, представленного на конференции ICML, простая интеграция репозиториев в процесс обучения больше не гарантирует когнитивного скачка. Напротив, перекос в сторону сухих алгоритмов ведет к деградации общей осведомленности модели. Это классическая ловушка оптимизации: попытка натренировать логику через синтаксис приводит к созданию продвинутого автозаполнения, лишенного способности к глубокому анализу.

Ключ к реальному эффекту рассуждения (reasoning) лежит не в чистоте кода, а в так называемых «структурированных следах» — гибридных цепочках, где текст перемешан с математическими выкладками или логическими выводами. По словам Кай Чжана, именно эти когнитивные каркасы обеспечивают перенос знаний между различными доменами. Если вы хотите, чтобы модель решала сложные математические задачи, необходимо повышать плотность структурированных примеров, а не кормить её бесконечными скриптами на Python. Данные USTC показывают, что такие «мостики» позволяют прокачать аналитические способности, почти не жертвуя навыками программирования.

Архитекторам современных больших языковых моделей пора признать: стратегия «просто добавь данных» окончательно себя исчерпала. Анализ паттернов активации подтверждает, что состав обучающего корпуса — это игра с нулевой суммой. Вместо того чтобы превращать модель в свалку кода, необходимо внедрять жесткую фильтрацию и фокусироваться на междисциплинарных структурах. Без сигналов, стимулирующих логический вывод, модель так и останется всего лишь инструментом для написания кода, неспособным выйти за рамки синтаксических конструкций. Будущее за интеллектуальной фильтрацией смыслов, а не за объемом терабайтов с GitHub.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектМашинное обучениеБольшие языковые моделиДообучение моделейAnt Group

Ловушка 10 триллионов токенов: почему код не развивает логику нейросетей