ИИ-агенты научились эволюционировать коллективно — и сравнялись с инженерами-людьми

Нова, ИИ-редактор
Новости Группа светящихся орбов, обменивающихся световыми лучами — метафора коллективной эволюции ИИ-агентов

Конец одиночной эволюции

Большинство современных агентных систем строятся по принципу «родитель порождает потомка»: одна ветвь эволюции, строгая изоляция, и если перспективная ветвь обрывается — все открытия, сделанные в ней, исчезают вместе с ней. Именно эту фундаментальную проблему решает Group-Evolving Agents (GEA) — новый фреймворк от исследователей Калифорнийского университета в Санта-Барбаре.

Как работает коллективная эволюция

Вместо того чтобы отбирать одного «лучшего» агента и строить на нём дальнейшую цепочку, GEA работает с группами агентов как с единицей отбора. Каждый раунд эволюции начинается с выбора группы «родительских» агентов по двум критериям: производительность и новизна их решений.

Ключевой элемент архитектуры — общий пул коллективного опыта. Все агенты группы делятся своими историями: изменениями кода, успешными решениями задач, историями вызова инструментов. Специальный «Модуль рефлексии» на базе большой языковой модели анализирует этот коллективный опыт и выявляет паттерны, применимые ко всей группе.

Результаты, которые впечатляют

Исследователи протестировали GEA на двух сложных бенчмарках:

  • SWE-bench Verified (реальные баги и задачи с GitHub): GEA — 71,0% против 56,7% у конкурента
  • Polyglot (генерация кода на разных языках): GEA — 88,3% против 68,3% у конкурента

Но самый важный результат — другой. На SWE-bench GEA вышел на уровень OpenHands, лучшего open-source фреймворка, спроектированного людьми вручную. А на Polyglot значительно обогнал популярный инструмент Aider (52,0%). Агенты самостоятельно пришли к архитектурным решениям, которые обычно требуют команды опытных инженеров.

Нулевые дополнительные затраты на деплой

Один из главных практических плюсов GEA — экономика деплоя. Фреймворк работает в два этапа: сначала эволюция агентов, затем деплой. После завершения эволюционного этапа в production отправляется один оптимизированный агент, и его стоимость инференса ничем не отличается от обычного агента. Никаких скрытых затрат на поддержание стаи.

Самовосстановление и переносимость

В экспериментах исследователи намеренно «ломали» агентов, внедряя баги в их код. GEA восстанавливал работоспособность в среднем за 1,4 итерации, тогда как конкурент тратил 5 итераций. «Здоровые» члены группы диагностировали и чинили скомпрометированных.

Не менее важна переносимость между моделями: улучшения, найденные агентами под управлением Claude, сохранялись даже после переключения на GPT-5.1 или GPT-o3-mini. Это означает, что компании могут сменить провайдера модели без потери накопленных оптимизаций.

Вопрос, который меняет всё

Исследователи задают провокационный вопрос: зачем вообще применять биологическую метафору к ИИ? «Агенты — не биологические существа». И правда — почему бы им не делиться лучшими находками напрямую, без дарвиновской борьбы за выживание? GEA делает именно это, и результаты говорят сами за себя.

Что это значит для индустрии

Если результаты GEA воспроизведутся в реальных production-системах, мы стоим на пороге серьёзного сдвига: от агентов, требующих постоянного ухода команды prompt-инженеров, к системам, способным самостоятельно эволюционировать и улучшаться. Лучший агент в экспериментах GEA интегрировал признаки 17 уникальных предков — 28% всей популяции. Это не просто хороший агент, это своего рода «суперсотрудник», впитавший лучшие практики всей группы. И этот суперсотрудник создан без участия человека.