NVIDIA Nemotron DLM: Прорыв в архитектуре языковых моделей

Авторегрессионное «бутылочное горлышко» — это, по сути, главная физическая проблема современного корпоративного ИИ. Годами большие языковые модели работали по принципу «один токен за раз», где каждый следующий шаг мучительно зависит от всей предыдущей последовательности. Как резонно отмечают Мехран Магоуми и команда NVIDIA Nemotron-Labs, классический авторегрессионный подход заставляет систему прогонять веса модели целиком ради каждого отдельного токена. Для бизнеса это оборачивается колоссальным нецелевым расходом ресурсов GPU, особенно в чувствительных к задержкам сценариях или при обработке одиночных запросов. Пока этот метод остается вынужденным костылем, он ставит жесткий потолок пропускной способности и лишает модель возможности исправлять собственные галлюцинации «на лету».

NVIDIA объявляет архитектурный демарш, выпуская семейство Nemotron-Labs Diffusion — модели на 3B, 8B и 14B параметров. Эти диффузионные языковые модели (DLM) отказываются от линейной очереди в пользу механики параллельной генерации и последующего уточнения. Вместо того чтобы гадать, какое слово будет следующим, система выдает массив токенов одновременно и итеративно «проявляет» их за несколько шагов, подобно тому как нейросеть Midjourney создает изображения. Такой маневр позволяет наконец нагрузить вычислительные блоки современных GPU реальной работой, а не заставлять их простаивать в ожидании данных из памяти. Чтобы затея не выглядела очередным лабораторным экспериментом, NVIDIA опубликовала модели, включая 8B версию для задач компьютерного зрения (VLM), под открытой лицензией вместе с кодом обучения через фреймворк Megatron Bridge.

Для тех, кто оптимизирует расходы на инфраструктуру, это означает появление прямого рычага управления бюджетом инференса: теперь можно регулировать количество шагов уточнения, не меняя саму модель. Впрочем, за параллелизм приходится платить сложностью самой итерации. Если в задачах суммаризации или редактирования текста диффузия выглядит фаворитом, то в логически нагруженных цепочках, таких как написание кода или математические вычисления, консистентность результата все еще требует жесткой валидации. NVIDIA предлагает инструмент для кратного ускорения вывода, однако ответственность за проверку «параллельных галлюцинаций» по-прежнему лежит на архитекторе системы.

Источник: HuggingFace Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиПроизводительностьОпенсорс ИИСнижение затратNVIDIA

NVIDIA Nemotron DLM: конец эпохи медленной генерации «по одному слову»