ИИ-симуляторы vs Физика: почему низкая MSE скрывает ошибки

Ваши цифровые двойники могут лгать, даже если метрики сулят идеальную точность. Исследование команды Йельского университета под руководством Эндрю Буковски, Адитьи Котхари, Симбы Ши и Ишира Рао обнажило опасный разрыв между визуальной правдоподобностью и физической реальностью. Пока диффузионные модели, обученные на гамильтоновых траекториях, щеголяют ничтожной среднеквадратичной ошибкой (MSE) на уровне 10−3, за этим статистическим фасадом скрывается полная профнепригодность. По данным Йеля, стандартное отклонение энергии в таких моделях оказывается в 36 000 раз выше эталонного. Проще говоря, нейросеть верно угадывает следующую позицию объекта, но игнорирует фундаментальные законы сохранения. В итоге система «из воздуха» обретает или теряет энергию, что в реальном мире физически невозможно.

Главный урок здесь в том, что предсказание — это не физика. Чтобы навести порядок, исследователи проверили, способны ли нейросети вычислять глобально сохраняемые величины напрямую из наблюдений на примере трех систем: движения снаряда, маятника и пружинного осциллятора. В баттле сошлись структурированная модель энергии T(v) + V(q), «черный ящик» Conservation Discovery Network (CDN) и его полиномиальный аналог. Структурированная сеть, в которую жестко вшит баланс кинетической и потенциальной энергии, показала почти безупречный результат R2 ≥ 0.9999. А вот «черный ящик» CDN потерпел неудачу без специфической калибровки по энергии в начальной точке (t=0). Это доказывает: одной временной последовательности недостаточно, чтобы нейросеть самостоятельно обнаружила истинные физические инварианты.

В вопросах долгосрочной надежности симуляций методология побеждает грубую вычислительную мощность. Хотя структурированные модели лидируют на чистых данных, CDN проявила большую устойчивость при столкновении с шумом в 1%, обойдя фаворита в двух системах из трех. Особую тревогу вызывает проблема «накопленного дрейфа» при автономном моделировании. Полиномиальный CDN сначала выдавал скромные R2 = 0.78 для маятника, но при увеличении объема данных и времени обучения достигал 0.9998. Без жестких архитектурных ограничений или избыточного обучения модели выбирают «ленивые» решения, которые выглядят пристойно на коротких дистанциях, но ведут к катастрофе в аэрокосмосе или фармацевтике, где законы сохранения не обсуждаются.

Для СТО и руководителей R&D это четкий сигнал: пора заканчивать с оценкой цифровых двойников по «плавности картинки» или средним ошибкам. Если ваш нейросимулятор лишен жестких архитектурных рамок гамильтоновой механики, вы запускаете дорогую анимацию, а не физическую модель. Отраслевым стандартом должен стать коэффициент детерминации Пирсона R2 ≥ 0.9999 для сохраняемых величин, прежде чем модели будет доверено принятие критически важных решений. Разрыв между низким MSE и 36-тысячекратной ошибкой в энергии — это не статистический казус, а потенциальный провал проекта ценой в миллионы долларов из-за модели, которая внезапно «забыла» про гравитацию.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектМашинное обучениеНейросетиБезопасность ИИYale University

Иллюзия точности: почему нейросети проваливают проверку законами физики