KleidiAI от Arm уже давно обещает ускорять модели в популярных Edge‑фреймворках без изменения кода, и теперь эта идея превратилась в реальность. Встроившись в XNNPack, MediaPipe, MNN, ONNX Runtime и даже llama.cpp, KleidiAI даёт ощутимый прирост производительности сразу после установки. Разработчики больше не тратят недели на кастомный тюнинг – ускорение происходит «из коробки», а модель стартует быстрее, latency падает, а память используется экономнее.

Следующий шаг – ExecuTorch 0.7 beta, где KleidiAI включён по умолчанию. Это значит, что любые Android‑устройства, построенные на новейших Arm CPU, а также огромный пул старых телефонов, получат автоматический доступ к тем же оптимизациям. Для компаний это упрощает интеграцию: вместо того чтобы писать отдельные ускорители под каждую архитектуру, достаточно обновить SDK и сразу получить выгоду.

Самый интересный момент – возможность перенести генеративные запросы с облачных GPU‑ферм на локальные процессоры. Благодаря инструкции SDOT (Signed Dot Product), поддерживаемой в Armv8.2 и более новых ядрах с 2015 года, матричное умножение – фундамент любой LLM – ускоряется даже при работе с int8 или более низкой точностью. По оценкам Arm, около трёх миллиардов устройств уже имеют эту инструкцию, включая смартфоны пятилетней давности и такие одноплатные компьютеры, как Raspberry Pi 5.

Для средних компаний это открывает альтернативу дорогостоящим облачным решениям. Вместо того чтобы платить за каждое GPU‑часы в публичных облаках, можно выполнять часть inference локально, экономя бюджет и ускоряя отклик продукта. Кроме того, сокращение зависимости от сетевого соединения повышает надёжность сервисов в регионах с плохой связью.

Почему это важно: CEO получает возможность предложить клиентам AI‑функционал без огромных расходов на облако, быстрее выводя продукты на рынок и охватывая пользователей старых устройств. Масштаб события – несколько миллиардов потенциальных конечных точек, а конкурентная выгода – снижение затрат и повышение скорости отклика за счёт локального ускорения.

ArmExecuTorchGenAIAndroidEdgeAI