Kimina-Prover-72B: новый стандарт точности в математике и логике

Команды Numina и Kimi представили Kimina-Prover-72B — модель, которая наглядно демонстрирует: эпоха, когда нейросетям прощали «творческий бред» в точных науках, официально завершена. Система базируется на архитектуре Qwen2.5-72B и обучена с использованием пайплайна Kimi k1.5. Однако ключевое здесь не объем параметров, а смена парадигмы: переход от простого предсказания следующего токена к активному поиску и верификации решений в режиме реального времени.

Благодаря обучению с подкреплением на этапе вывода (Test-Time Reinforcement Learning, TTRL), модель не просто выдает вероятный ответ, а рекурсивно ищет промежуточные леммы и строит строгие доказательства на формальном языке Lean 4. Разработчики фактически перенесли основную вычислительную нагрузку с этапа обучения на этап инференса. Это прагматичный экономический маневр: вместо бесконечного расширения обучающих датасетов модель заставляют «думать» дольше непосредственно в момент решения задачи. Для систем, где цена ошибки критически высока, такой подход остается единственным жизнеспособным путем.

Результаты бенчмарка miniF2F подтверждают правильность ставки на ресурсоемкий поиск: Kimina-Prover-72B показала результат SOTA, успешно пройдя 92,2% тестов. Главная особенность модели — работа над ошибками. В отличие от стандартных языковых моделей, которые при любой заминке начинают генерацию с нуля, Kimina-Prover анализирует сообщения об ошибках от компилятора Lean и точечно корректирует код. Этот итеративный цикл обратной связи превращает «галлюцинирующий» генератор в эффективный инструмент логического вывода.

Для бизнеса и технических директоров это четкий сигнал: правдоподобность больше не является мерилом качества. Альянс Numina и Kimi доказал, что ИИ способен обеспечивать математически доказуемую корректность. Если ваши задачи требуют абсолютной точности в коде или логике, полагаться на вероятностное угадывание теперь не просто риск, а признак технической отсталости.

Масштабирование вычислений при выводе через RL-поиск становится новым золотым стандартом индустрии. Мы видим прямой вызов доминирующей привычке «простого предсказания». Архитектура с обязательной проверкой результата перед выдачей (verify-before-output) вскоре станет базовым требованием для внедрения ИИ в критически важный R&D. Компании, продолжающие транслировать галлюцинации моделей, быстро окажутся на обочине рынка, где ценятся только проверяемые факты.

Источник: HuggingFace Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиМашинное обучениеИИ в бизнесеДообучение моделейKimina-Prover

Математика без галлюцинаций: Kimina-Prover-72B меняет правила игры в ИИ