ExploitBench: новый стандарт оценки ИИ в кибербезопасности

Традиционные бенчмарки для оценки больших языковых моделей (LLM) в сфере кибербезопасности безнадежно устарели, поскольку рассматривают эксплуатацию уязвимостей как бинарное событие: либо взломал, либо нет. Как объясняют исследователи из Университета Карнеги-Меллона Сынхён Ли и Дэвид Брумли, текущие метрики часто принимают обычный сбой системы за успешный эксплойт. Это упрощение скрывает реальную картину: мы не видим конкретных «точек затыка», на которых спотыкается логика моделей. Чтобы исправить этот методологический провал, Ли и Брумли представили ExploitBench — фреймворк, заменяющий примитивную логику «взлома» на 16-ступенчатую «лестницу возможностей» (Capability Ladder).

Система отслеживает прогресс агента от простого обнаружения багов и провокации сбоя до создания примитивов управления песочницей, произвольного чтения/записи памяти и, наконец, полного выполнения произвольного кода (ACE). В основу ExploitBench легли 41 реальная уязвимость движка V8 JavaScript. Выбор пал на V8 не случайно: он повсеместен и максимально защищен. В отличие от бенчмарков с «картонными» защитами, здесь ИИ-агенты вынуждены работать в условиях, с которыми сталкиваются профессиональные хакеры.

Результаты тестирования фиксируют колоссальный технологический разрыв. Хотя восемь публичных моделей фронтира научились стабильно вызывать сбои, они почти поголовно буксуют при попытке выйти за пределы песочницы V8. Условная GPT-4o может уронить систему, но не способна взять её под контроль. Лишь закрытая исследовательская модель Anthropic Mythos Preview показала реальный результат, добившись полного выполнения кода в 18 из 41 случая. Это подтверждает наблюдение экспертов: истинный фронтир возможностей ИИ сейчас лежит не в умении «сломать», а в способности выстраивать сложную цепочку логической декомпозиции атаки.

Для директоров по информационной безопасности (CISO) и архитекторов ИИ это означает смену парадигмы аудита. Оценка автономных систем защиты должна сместиться с поверхностных результатов на глубину контроля. ExploitBench дает карту критических узлов на лестнице возможностей, позволяя прицельно дообучать модели через обучение с подкреплением на основе обратной связи от человека (RLHF) именно там, где ломается их логика. Мы переходим от гадания «взломает или нет» к четкому измерению: сколько ступеней из шестнадцати способен пройти агент, прежде чем его интеллект капитулирует перед архитектурой безопасности.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

КибербезопасностьБезопасность ИИИИ-агентыAnthropic

Лестница взлома: ExploitBench покажет, на чем спотыкаются ИИ-агенты