Про AI-агентов трубят уже полтора года, но сейчас, когда прототипы покинули уютные песочницы и вышли «в поле», бизнес больно ударился о реальность. За красивыми демо-версиями, собранными на коленке, скрывается финансовая ловушка, которую многие предпочитают не замечать. Как объясняет Шриранджани Рамасубраманян из AMD, агенты — это не просто болтливые чат-боты, а прожорливые системы с бесконечными циклами планирования, вызовами инструментов и сложной работой с памятью. Если обычный запрос к модели — это «один вход, один выход, один чек», то агентный воркаут превращает любой чих пользователя в цепочку из десятка итераций. И за каждую придется платить.
Математика здесь беспощадна. Один из стартапов обнаружил, что их агент для поиска фрода обходился в $5 000 в месяц всего на 50 пользователей. Когда базу расширили до 500 человек — жалкая десятая доля от корпоративного стандарта — счет мгновенно утроился. Агент честно выполнял свою работу, но его юнит-экономика приказала долго жить. Проблема даже не в «глупости» моделей, а в том, что стандартное железо категорически не приспособлено к таким сценариям. Любой ответ ИИ состоит из двух фаз: prefill (чтение контекста и создание кэша) и decode (генерация токенов). Первая требует грубой мощи и параллелизма, вторая — последовательный процесс, который мучительно упирается в скорость памяти.
В традиционной инфраструктуре обе фазы пытаются вешать на одни и те же чипы, создавая классическое бутылочное горлышко. Пока модель выжимает из себя очередной токен в бесконечной цепочке рассуждений, дорогущие вычислительные мощности просто простаивают. Переход к модным мультиагентным системам только вбивает последний гвоздь в бюджет: расходы растут в пять-десять раз из-за раздувания контекста и сложной логики оркестрации. Технологические гиганты вроде Meta, LinkedIn и Mistral уже пытаются обуздать эти траты, внедряя дезагрегированное обслуживание (disaggregated serving), когда разные фазы вычислений разносятся по специализированным пулам железа.
Для CEO это четкий сигнал: успех вашего пилота сегодня — опасная иллюзия, которая рассыплется в прах при попытке масштабирования на 5 000 рабочих мест. Вместо того чтобы гоняться за «самыми умными» и дорогими моделями, сейчас стратегически выгоднее инвестировать в архитектуру памяти и оптимизацию инференса. В противном случае ваш бюджет на инновации будет сожжен на оплату бесконечных «раздумий» системы, которые не приносят прямой прибыли. Прямо сейчас потребуйте у технической команды расчет стоимости одной завершенной задачи (cost per task completion) для текущих прототипов. Цифры при экстраполяции на 1000+ активных сессий могут вас сильно отрезвить.