В Lemana Tech обслуживают более 40 тысяч сотрудников, управляют 112 магазинами и ежемесячно обрабатывают около 100 000 запросов в поддержку. Классические ML‑модели уже не выдержали рост нагрузки: простые бустинги и правила покрывали лишь часть сценариев, а остальное оставалось «ручной работой». Команда под руководством Дмитрия Терентьева решила проблему, внедрив LLM с RAG‑надстройкой, которая ищет ответы в корпоративных Wiki и формирует их в человекоподобном виде.
RAG (retrieval‑augmented generation) заменил традиционный «поиск по базе» на мгновенную генерацию ответов. Сначала система вытаскивает релевантные эмбеддинги из кэша, затем генерирует короткий ответ – без прогонки полного запроса через тяжёлый языковой слой. В результате среднее время решения типичного запроса упало с 3–5 минут до 10–15 секунд, а нагрузка на вычислительные ресурсы сократилась примерно до четверти от прежних значений.
Гибридный подход Lemana Tech оставил классические ML‑модели для простых триггеров (например, автоматическое открытие инцидента по коду ошибки). Такие модели работают быстрее и дешевле, а LLM с RAG включается только в сложных сценариях, где требуется «человеческое» объяснение. По оценкам команды, экономия на лицензиях и обслуживании может достигать $200 K в год – часть запросов теперь полностью автоматизирована без дорогостоящих облачных сервисов.
Почему это важно для тебя, CEO? Сокращение времени отклика Service Desk сразу повышает продуктивность сотрудников и убирает простои. Меньше вычислительных затрат – больше бюджета на масштабирование остальных бизнес‑инициатив. Гибридная архитектура даёт возможность быстро адаптировать поддержку под растущий объём запросов без ощутимого роста расходов.