В августе 2025 OpenAI выпустила две открытые модели – gpt‑oss‑120b (117 млрд параметров) и gpt‑oss‑20b (21 млрд). Обе работают по MoE‑схеме с 4‑битной квантизацией MXFP4, так что при инференсе активна лишь часть экспертов: 5,1 млн и 3,6 млн параметров соответственно. Это позволяет разместить gpt‑oss‑120b в один GPU H100 (80 ГБ), а gpt‑oss‑20b – даже на потребительском видеокарте с 16 ГБ памяти.
По заявлению OpenAI, использование этих моделей сокращает затраты на инфраструктуру и лицензии примерно на 70 % по сравнению с их облачными API. Если у компании уже есть GPU‑парки или планирует аренду облака, она может избавиться от десятков дорогих H100 и платить только за токены в реальном времени.
Качество генерации сохраняется благодаря MoE со SwiGLU‑активациями и softmax‑after‑topk: 4‑битная квантизация затрагивает лишь веса экспертов, остальные слои работают в полной точности. Модели демонстрируют уровень производительности, сопоставимый с закрытыми аналогами, при решении агентных задач и сложного reasoning.
Лицензия Apache 2.0 меняет баланс сил: компании получают полный контроль над моделью и данными, могут дообучать её под свои домены и запускать в закрытой инфраструктуре без риска роста цен на API или утечки данных. Однако для эффективной кастомизации потребуется экспертиза в MoE‑архитектурах и 4‑битных квантизациях, что может увеличить начальные OPEX.
Почему это важно: CEO могут пересчитать CAPEX/OPEX, сократив расходы на GPU‑парки до 30 % от текущих расходов на API, и начать планировать внутреннее развертывание LLM без зависимости от внешних провайдеров. Первым шагом – оценить готовность инфраструктуры к работе с H100/consumer‑GPU и сформировать небольшую команду экспертов по MoE‑моделям для быстрой адаптации.