Почему бенчмарки ИИ лгут: провал в математической логике

Иллюзия всесилия искусственного интеллекта в точных науках дала серьезную трещину. Консорциум из 64 математиков под эгидой Университета Карнеги-Меллона, EleutherAI и Сеульского национального университета представил новый бенчмарк SOOHAK. Его результаты обнажили неприятную правду: фронтирные модели катастрофически не умеют признавать поражение.

Главным камнем преткновения стал так называемый Refusal set — набор задач, которые физически невозможно решить из-за логических противоречий или отсутствия вводных данных. Вместо того чтобы честно заявить о некорректности условий, нейросети с энтузиазмом галлюцинируют, выдавая стройные, но абсолютно бессмысленные доказательства.

Согласно отчету, даже Gemini 3 Pro, показавшая достойные 30% в решении задач исследовательского уровня, позорно пасует перед некорректными условиями. Ни одна из существующих систем не преодолела порог в 50% при попытке выявить ошибку в самом вопросе. Ситуация с семейством Qwen3 выглядит еще плачевнее: по оценке издания The Decoder, их результат в категории Refusal не дотянул и до 3%. Это подтверждает обоснованный скепсис экспертов относительно «олимпийских» успехов ИИ. Триумфы на уровне золотых медалей IMO — лишь результат натаскивания на стандартные паттерны, который рассыпается при встрече с реальным логическим хаосом.

Для бизнеса и инженерных команд это тревожный сигнал. Модели обучаются давать ответ любой ценой, полностью игнорируя методологическую чистоту. Как отмечают авторы SOOHAK, рост вычислительных мощностей лишь полирует фасад, не затрагивая фундаментальную проблему: ИИ не понимает границ собственной компетентности. В критических нишах, таких как аэрокосмические расчеты или биохимия, подобная «уверенная некомпетентность» превращается в мину замедленного действия. Ситуация усугубляется тем, что открытые модели вроде Kimi-2.5 или GPT-OSS-120B показывают еще более слабые результаты на неопубликованных материалах — сказывается дефицит качественных данных в узких дисциплинах.

Слепое доверие вероятностным моделям в высокоточных отраслях сегодня можно расценивать как управленческую халатность. Пока бенчмарки вроде SOOHAK не заставят разработчиков внедрять детерминированные системы проверки, «галлюцинации точности» будут блокировать реальную интеграцию ИИ в науку и производство. Без экспертного контроля и жестких логических фильтров любая нейросеть остается лишь очень дорогим и красноречивым генератором случайных формул.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеGoogle DeepMind

Математические галлюцинации: почему ИИ не умеет говорить «я не знаю»