Эпоха бездумного наращивания пропускной способности больших языковых моделей любой ценой упирается в физический предел. До недавнего времени системы инференса рассматривали энергопотребление GPU как статичное ограничение, а не как управляемый ресурс — роскошь, которую современные дата-центры больше не могут себе позволить. Особенно дорого это упущение обходится при работе с моделями типа Mixture-of-Experts (MoE). Хотя архитектура MoE сегодня доминирует в рабочих нагрузках, разреженная активация её параметров приводит к катастрофической неэффективности при распределении мощности. Тренд наконец-то меняется: мы переходим от метрик «производительность любой ценой» к стратегии энергоэффективных систем ИИ.

Чтобы преодолеть этот разрыв, исследователи из Бостонского и Гарвардского университетов — включая Джана Ханкенди, Айше Кошкун, Рану Шахут и Минлань Юй — разработали PALS (Power-Aware LLM Serving). Эта среда исполнения (runtime) рассматривает лимиты энергопотребления GPU как первоочередной рычаг управления, а не как скрытую настройку оборудования. Интегрировав PALS в популярный фреймворк vLLM, разработчики внедрили контроллеры с обратной связью. Это позволяет одновременно оптимизировать аппаратные лимиты мощности и программные параметры, такие как размер пакета (batch size). Согласно результатам тестов, PALS повышает энергоэффективность на 26,3% без необходимости переобучения моделей или внесения изменений в API.

Помимо прямой экономии, система повышает надежность «физического уровня». PALS в 4–7 раз сократил количество нарушений качества обслуживания (QoS) в условиях жестких ограничений по питанию за счет агрессивного отслеживания динамических бюджетов мощности. Это знаменует собой фундаментальный поворот в инфраструктуре: минимизацию стоимости одного токена через управление базовыми физическими параметрами кремния. Поскольку дата-центры сталкиваются с лимитами на уровне мощностей объектов и волатильностью цен на электроэнергию, способность жертвовать производительностью ради экономии энергии в реальном времени становится условием выживания для облачных провайдеров.

Если прирост эффективности в 26,3% достижим только за счет программного ограничения мощности, то нынешняя привычка индустрии к избыточному резервированию ресурсов для неоптимизированных MoE-моделей выглядит не как запас прочности, а как технический долг. Для технических директоров и владельцев инфраструктуры вывод очевиден: следующий этап гонки ИИ выиграют не те, у кого больше видеокарт, а те, кто сможет выжать максимум токенов из каждого ватта, не обрушив при этом энергосеть.

Большие языковые моделиПроизводительностьСнижение затратОблачные вычисленияAI-чипы