MiMo‑V2‑Pro почти догоняет Claude Opus 4.6 в кодинге и агентных задачах, но делает это за копейки – $1 за миллион входных токенов и $3 за вывод, тогда как конкуренты берут от $5 до $25. На SWE‑bench Verified модель набрала 78 % (Claude – 80,8), в ClawEval — 81 против 81,5. Разница в цене превращает десятки долларов за запрос в несколько центов и сразу меняет точку безубыточности AI‑проекта.
MiMo‑V2‑Omni объединяет зрение, слух и действия в единой «спинной» сети: кодирует изображения, видео и звук, вызывает инструменты и управляет UI. Xiaomi продемонстрировала автономный шоппинг в браузере и анализ видеопотока dash‑камеры для обнаружения опасностей – типичные задачи робототехники, умных домов и IoT. По заявлению компании, Omni обгоняет Gemini 3 Pro по аудио, записывает более десяти часов подряд и набирает 76,8 в MMMU‑Pro, ставя её рядом с лучшими мультимодальными системами.
Три модели сразу – LLM, мультимодальная модель и синтезатор речи – превращают Xiaomi в поставщика полного стека. MiMo‑V2‑Pro работает на MoE‑архитектуре с триллионом параметров в сумме, активируя 42 млрд за запрос; контекст может достигать миллиона токенов, а пакетная генерация ускоряет отклик. Публичный API уже интегрирован в пять агентных фреймворков и бесплатен неделю, разработчики бросаются к нему как к распродаже в Чёрную пятницу.
Что это значит для бизнеса прямо сейчас: масштабировать AI‑агенты с MiMo‑V2 можно за 80 % меньше токенных расходов и с миллионом‑токенным контекстом, что резко сокращает точку безубыточности. Главное – проверить инфраструктуру на такие объёмы и протестировать мультимодальные сценарии в IoT, иначе экономия останется лишь рекламным трюком.