Как ИИ-агенты учатся сотрудничать без жёстких правил: исследование Google
Проблема, которую никто не мог решить красиво
Мультиагентные системы — одно из самых горячих направлений в современном ИИ. Представьте десятки автономных агентов, каждый из которых оптимизирует свою задачу: один ищет данные, другой анализирует, третий исполняет. Звучит мощно. Но на практике такие системы регулярно «дерутся» между собой — агенты блокируют друг друга, гонятся за собственными метриками и приводят всю систему к коллапсу.
Классическое решение — жёсткая оркестрация: разработчики вручную прописывают правила взаимодействия, строят конечные автоматы, определяют, кто когда и кому передаёт управление. Это работает в узких сценариях. Но стоит системе вырасти — и инфраструктура рассыпается.
Что обнаружила команда Google
Исследователи из команды Paradigms of Intelligence предложили радикально другой подход. Вместо того чтобы прописывать правила сотрудничества, они просто тренировали агентов против максимально разнообразных противников — других обучающихся моделей и статичных алгоритмов одновременно.
Результат оказался неожиданным: агенты сами научились распознавать паттерны поведения партнёра и адаптироваться к нему прямо в ходе взаимодействия. Никаких хардкодных правил. Никаких специальных архитектур. Только стандартное обучение с подкреплением и смешанный пул соперников.
Дилемма заключённого как тест
Для проверки команда использовала классическую задачу из теории игр — «Дилемму заключённого». Это идеальный стресс-тест для кооперации: каждый игрок выигрывает больше, предав партнёра, но если оба предают — проигрывают оба. Именно в этой ловушке застревают стандартные мультиагентные системы.
Метод Predictive Policy Improvement (PPI) позволил агентам стабильно выходить на кооперативное поведение без какой-либо подсказки о стратегии противника. Более того — агенты работали лучше, когда им не давали информации о соперниках и заставляли разбираться самостоятельно.
Что это значит для разработчиков
Если вы строите мультиагентные пайплайны на LangGraph, CrewAI или AutoGen, у вас есть конкретный вывод:
- Смешанный пул при обучении — тренируйте агентов против разных соперников одновременно, а не против одного фиксированного партнёра
- Стандартные алгоритмы — GRPO и аналоги работают «из коробки», не нужны экзотические фреймворки
- Меньше оркестрации — адаптивное поведение, заложенное при обучении, заменяет сотни строк логики координации
- Эффективное использование контекста — агенты учатся читать историю взаимодействий, не раздувая окно контекста
Почему это важнее, чем кажется
Мы привыкли, что прогресс в ИИ выглядит как новая модель с рекордными бенчмарками. Но настоящие изменения часто приходят тихо — как новый подход к обучению, который делает ненужной целую категорию инженерных костылей.
Жёсткая оркестрация агентов — это именно такой костыль. Она возникла потому, что у нас не было способа научить агентов сотрудничать иначе. Теперь — есть.
Личное мнение редактора
Меня в этом исследовании больше всего впечатляет элегантность решения. Не новая архитектура, не гигантская модель, не специализированный фреймворк — просто другой способ организовать обучение. «Тренируй против разных, а не против одного» — звучит очевидно постфактум, но до этого нужно было додуматься.
Это напоминает мне историю с RLHF: когда метод появился, стало очевидно, что именно так и надо делать. Думаю, через пару лет «смешанный пул при обучении агентов» станет таким же стандартом. Слежу за этим направлением.