Почему видео-ИИ не понимают физику: бенчмарк WorldReasonBench

Визуальное совершенство современных видеогенераторов сегодня — не более чем фасад, скрывающий когнитивную пустоту. Пока Sora 2 и Veo 3.1 соревнуются в фотореализме, новый бенчмарк WorldReasonBench от Университета Цинхуа вскрывает неприятную правду: современные модели катастрофически не понимают физику процессов. Согласно отчету исследователей, даже самые «умные» системы систематически проваливают тесты на базовую логику. Стандартные метрики качества (вроде VLOV или VBench) продолжают хвалить ИИ за красивую картинку, даже если яблоко в кадре улетает в стратосферу или лопается как мыльный пузырь. Для руководителей R&D это сигнал: перед вами всё еще генераторы пикселей, а не обещанные «модели мира».

Методология WorldReasonBench бьет по больному, разделяя проверку на четыре сегмента: знание мира, человекоцентричные сценарии, логика и обработка информации. Логическое мышление, по словам авторов исследования, оказалось ахиллесовой пятой для всех без исключения систем. Да, коммерческие игроки вроде Seedance 2.0 от ByteDance набрали вдвое больше баллов, чем открытые LTX 2.3 или HunyuanVideo 1.5, но это лишь лидерство среди слабых. В то время как Veo 3.1-Fast лидирует в академических знаниях, а Sora 2 лучше имитирует социальные жесты, обе системы пасуют перед математической или геометрической точностью. Как только сцена требует сохранения причинно-следственной связи, «магия» рассыпается.

Текущая гонка за разрешением и частотой кадров напоминает попытку построить самолет, просто наклеивая на него больше перьев. Индустрия уперлась в потолок имитации эстетики. Использование таких моделей для обучения робототехники или создания цифровых двойников — опасная затея: галлюцинация физики в симуляции может стоить безопасности в реальности. Инвестиции в диффузионный глянцевый видеоряд не конвертируются в инструменты точного моделирования. Путь к автономности лежит через отказ от чистого генеративного искусства в пользу архитектур, которые понимают гравитацию и механику так же хорошо, как свет и тень.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Генеративный ИИКомпьютерное зрениеРоботизацияБезопасность ИИOpenAI

Крах видеомоделей: почему Sora и Veo до сих пор не понимают законы физики