MetaAgent-X: Сквозное RL-обучение для AI-агентов

Современные мультиагентные системы (MAS) уперлись в потолок, который исследователи из Amazon AGI, Калифорнийского университета в Сан-Диего и Университета штата Орегон метко окрестили проблемой «замороженного исполнителя». Суть проста: нынешние фреймворки — это либо статические надстройки, либо системы, где «дизайнер» верхнего уровня пытается дирижировать агентами, которые не умеют учиться на своих ошибках. Как отмечают авторы работы Яолунь Чжан и Юйцзе Чжао, такое разобщение на уровне промптов превращает MAS в неповоротливую конструкцию: мета-дизайнер не может выжать из подчиненных специализированное поведение, поскольку те остаются глухи к результатам выполнения задач.

Чтобы прекратить эту симуляцию продуктивности, команда разработчиков под руководством Нань Вана (Amazon AGI) и Цинъюня У (Университет штата Пенсильвания) представила MetaAgent-X. Это первый фреймворк, где сквозное обучение с подкреплением (End-to-End RL) заставляет систему одновременно проектировать воркфлоу и калибровать действия конкретных исполнителей. В основе лежит механизм иерархического развертывания (Executor Designer Hierarchical Rollout) и поэтапная коэволюция. Проще говоря, система больше не просто следует скрипту, а распределяет «награду» за успех между траекториями дизайнера и исполнителя в едином цикле, заставляя обе роли прогрессировать параллельно.

Цифры подтверждают жизнеспособность подхода: MetaAgent-X показывает прирост эффективности до 21,7% по сравнению с классическими автоматизированными MAS. По оценке ученых из UCSD, переход к самоорганизующимся средам позволяет фактически похоронить ручное написание стандартных операционных процедур (SOP). Вместо того чтобы бизнес-аналитики неделями вычерчивали схемы взаимодействия агентов, система сама оптимизирует архитектуру под конкретную задачу.

Впрочем, за автономность придется платить. Сквозное RL-обучение требует внушительных вычислительных мощностей, а вопросы интерпретируемости самоорганизующихся процессов остаются открытыми. На наш взгляд, это классический компромисс: мы либо сохраняем полный контроль над прозрачным, но неэффективным деревом решений, либо отдаем проектирование на откуп MetaAgent-X, получая прирост производительности ценой появления «черного ящика» внутри агентной логики. Тем не менее, превращение MAS из теоретической концепции в самообучаемую парадигму — это четкий сигнал рынку: эпоха ручной оркестровки AI-агентов подходит к концу.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыМашинное обучениеАвтоматизацияAmazon AGI

MetaAgent-X: конец эпохи ручного управления ИИ-агентами