Команда Open-R1 за две недели после релиза DeepSeek-R1 не просто повторила, а воспроизвела ключевые элементы этой закрытой разработки: часть пайплайна и синтетический датасет. Результат — модели Open-R1 показали схожие с DeepSeek-R1 показатели на бенчмарке MATH-500.
Например, DeepSeek-R1-Distill-Qwen-32B достигла 95.0% точности, едва не дотянувшись до 94.3% оригинала. Это выглядит как закономерный вызов всей индустрии: даже закрытые наработки гигантов AI теперь не являются неприступными крепостями.
Сообщество открытого кода успешно реплицирует их, ускоряя развитие доступных решений и снижая порог входа для тех, кто хочет играть по-крупному. В процессе выяснилось, что ответы DeepSeek-R1 поражают своими масштабами: в среднем 6000 токенов, а порой и все 20 000.
Такое «словоизвержение», эквивалентное десяткам страниц, ставит перед исследователями непростые задачи, особенно в области GPRO-тренинга, который потребует немалых вычислительных мощностей. Коллективные усилия и открытые данные, как показывает пример Open-R1, становятся реальным катализатором прогресса.
Это подрывает монополию крупных игроков и стимулирует появление более доступных и адаптивных AI-агентов, что уже меняет конкурентную игру.