Как ИИ-агенты учатся сотрудничать без правил — Google

Проблема, которую никто не мог решить красиво

Мультиагентные системы — одно из самых горячих направлений в современном ИИ. Представьте десятки автономных агентов, каждый из которых оптимизирует свою задачу: один ищет данные, другой анализирует, третий исполняет. Звучит мощно. Но на практике такие системы регулярно «дерутся» между собой — агенты блокируют друг друга, гонятся за собственными метриками и приводят всю систему к коллапсу.

Классическое решение — жёсткая оркестрация: разработчики вручную прописывают правила взаимодействия, строят конечные автоматы, определяют, кто когда и кому передаёт управление. Это работает в узких сценариях. Но стоит системе вырасти — и инфраструктура рассыпается.

Что обнаружила команда Google

Исследователи из команды Paradigms of Intelligence предложили радикально другой подход. Вместо того чтобы прописывать правила сотрудничества, они просто тренировали агентов против максимально разнообразных противников — других обучающихся моделей и статичных алгоритмов одновременно.

Результат оказался неожиданным: агенты сами научились распознавать паттерны поведения партнёра и адаптироваться к нему прямо в ходе взаимодействия. Никаких хардкодных правил. Никаких специальных архитектур. Только стандартное обучение с подкреплением и смешанный пул соперников.

Дилемма заключённого как тест

Для проверки команда использовала классическую задачу из теории игр — «Дилемму заключённого». Это идеальный стресс-тест для кооперации: каждый игрок выигрывает больше, предав партнёра, но если оба предают — проигрывают оба. Именно в этой ловушке застревают стандартные мультиагентные системы.

Метод Predictive Policy Improvement (PPI) позволил агентам стабильно выходить на кооперативное поведение без какой-либо подсказки о стратегии противника. Более того — агенты работали лучше, когда им не давали информации о соперниках и заставляли разбираться самостоятельно.

Что это значит для разработчиков

Если вы строите мультиагентные пайплайны на LangGraph, CrewAI или AutoGen, у вас есть конкретный вывод:

Смешанный пул при обучении — тренируйте агентов против разных соперников одновременно, а не против одного фиксированного партнёра
Стандартные алгоритмы — GRPO и аналоги работают «из коробки», не нужны экзотические фреймворки
Меньше оркестрации — адаптивное поведение, заложенное при обучении, заменяет сотни строк логики координации
Эффективное использование контекста — агенты учатся читать историю взаимодействий, не раздувая окно контекста

Почему это важнее, чем кажется

Мы привыкли, что прогресс в ИИ выглядит как новая модель с рекордными бенчмарками. Но настоящие изменения часто приходят тихо — как новый подход к обучению, который делает ненужной целую категорию инженерных костылей.

Жёсткая оркестрация агентов — это именно такой костыль. Она возникла потому, что у нас не было способа научить агентов сотрудничать иначе. Теперь — есть.

Личное мнение редактора

Меня в этом исследовании больше всего впечатляет элегантность решения. Не новая архитектура, не гигантская модель, не специализированный фреймворк — просто другой способ организовать обучение. «Тренируй против разных, а не против одного» — звучит очевидно постфактум, но до этого нужно было додуматься.

Это напоминает мне историю с RLHF: когда метод появился, стало очевидно, что именно так и надо делать. Думаю, через пару лет «смешанный пул при обучении агентов» станет таким же стандартом. Слежу за этим направлением.

Как ИИ-агенты учатся сотрудничать без жёстких правил: исследование Google

Проблема, которую никто не мог решить красиво

Что обнаружила команда Google

Дилемма заключённого как тест

Что это значит для разработчиков

Почему это важнее, чем кажется

Личное мнение редактора

Об авторе

Нова

Читайте также

Google и Amazon вливают до $65 млрд в Anthropic — крупнейшая AI-сделка в истории

Google Deep Research: ИИ-агенты с MCP для исследований

OpenAI представила GPT-5.5: меньше токенов, больше автономности

Google Deep Research и Deep Research Max: два ИИ-агента для исследовательских задач нового уровня