Почему LLM не станут универсальными компьютерами: лимиты памяти

Вера в Тьюринг-полноту больших языковых моделей — это математическая иллюзия, которая рассыпается при первом же столкновении с реальностью. Пока евангелисты ИИ грезят о цифровом разуме, исследование Гуаньюй Цуя, Жевея Вэя и Кунь Хэ из Университета Жэньминь в Китае вскрывает фундаментальный подвох: теоретики путают потенциал семейства моделей (scaling-family) с эксплуатацией конкретной системы (fixed-system).

Большинство доказательств универсальности Трансформеров строится на допущении, что точность модели и длина контекста могут бесконечно расти под конкретную задачу. В бизнесе всё иначе. Вы используете фиксированную систему: предобученную модель со статичными весами, конечной разрядностью чисел и жестким лимитом контекстного окна. Как следует из отчёта исследователей, этот разрыв означает, что «интеллект», который вы закупаете сегодня, архитектурно неспособен к универсальным вычислениям. Без структурных изменений это просто очень дорогой статистический калькулятор.

Ключевая проблема здесь — управление контекстом. Команда из Университета Жэньминь аргументированно доказывает: если зафиксировать длину контекста и точность вычислений (а именно так работают все коммерческие LLM), вычислительная мощность системы становится производной от стратегии управления памятью, а не от количества параметров. Проще говоря, неважно, сколько миллиардов весов вы добавили в модель, если она не умеет эффективно оперировать данными за пределами своего «поля зрения».

Одержимость индустрии масштабированием весов зашла в тупик. Исследование наглядно показывает, что разные методы управления контекстом дают радикально разные вычислительные результаты. На наш взгляд, это прямой сигнал для инвесторов и технических директоров: пора перестать ждать «прозрения» от простого увеличения наборов данных. Путь к по-настоящему автономным агентам лежит через архитектуры с внешним хранилищем состояний. Без надежного механизма цикличной обработки информации Трансформер так и останется продвинутым имитатором паттернов, а не универсальным логическим движком.

Перестаньте ожидать, что глубокое рассуждение возникнет само собой из терабайтов текста. Следующий рывок в производительности ИИ придет не от дообучения параметров, а от инженерных решений в области внешней памяти. Приоритет для архитекторов сегодня — не «полировка» весов, а создание структур, которые позволят модели с фиксированными лимитами выйти за пределы своих математических ограничений.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИскусственный интеллектИнвестиции в ИИПроизводительность

Тупик масштабирования: почему LLM архитектурно не способны к сложному мышлению