CRANE: как IBM Research решает парадокс кодинг-агентов

Современные ИИ-агенты для написания кода оказались в ловушке «парадокса выравнивания»: либо модель обладает выдающимся интеллектом, но игнорирует протоколы, либо она безукоризненно послушна, но пасует перед сложными задачами. Как отмечают Минчжи Чжу из Политехнического института Ренсселера и команда IBM Research, специализированные модели класса Thinking с их механизмом глубокого планирования на практике часто становятся обузой. Они склонны к избыточным рассуждениям, раздувают контекст и нарушают формат вызова инструментов. Данные бенчмарка Roo-Eval подтверждают этот диагноз: модель Qwen3-Next-80B-A3B (Thinking) показывает скромные 35,4% в тесте pass@1, тогда как её Instruct-версия, приученная к дисциплине и лаконичности, достигает 72,8%. Проблема заключается в том, что текущие системы либо слишком зажаты жесткими правилами, либо «уходят в астрал», забывая о синтаксисе JSON и разделителях.

Чтобы устранить этот разрыв без колоссальных затрат на дообучение, IBM Research и RPI представили метод CRANE (Constrained Reasoning Injection for Code Agents via Nullspace Editing). Это подход, не требующий обучения (training-free), в котором разница в параметрах между Thinking и Instruct моделями рассматривается как вектор потенциального апгрейда логики. Метод использует трехступенчатый фильтр для очистки этой «дельты» перед внедрением в базовую Instruct-модель. Сначала пороговое значение амплитуды отсекает статистически незначимые координаты. Затем «консервативный затвор Тейлора» (Conservative Taylor Gate) оценивает, какие обновления способствуют переносу логики, не нарушая при этом работу с инструментами. На финальном этапе градиентная сигмоидальная проекция подавляет изменения, способные исказить критически важные для формата токены. По сути, CRANE хирургически отделяет полезный сигнал рассуждений от шума, защищая хрупкую структуру протоколов взаимодействия.

Результаты экспериментов доказывают, что точность написания кода и глубина логических выводов не являются взаимоисключающими параметрами, если работать с ними на уровне «параметрической хирургии». Согласно отчету исследователей, применение CRANE к модели Qwen3-30B-A3B подняло показатель pass@1 на Roo-Eval до 66,2%, что на 19,5% выше базовой версии. В ходе тестирования на более сложном SWE-bench-Verified система успешно закрыла на 14 реальных задач больше в весовых категориях 30B и 80B. Обойдя классические стратегии слияния моделей, CRANE переводит дискуссию в новое русло: техническим лидерам больше не нужно выбирать между «умной» и «послушной» моделью. Параметры превращаются в модульный конструктор, который можно настраивать под конкретные рабочие процессы агентов без необходимости переписывать веса нейросети с нуля.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБольшие языковые моделиПроизводительностьIBM

Хирургия параметров: метод CRANE делает ИИ-агентов умнее без переобучения