Arbor: когда ИИ учится учиться
Исследователи Китайского университета Жэньминь и Microsoft Research представили Arbor — фреймворк, который превращает слепое перебирание вариантов ИИ-агентами в структурированный процесс научных экспериментов. И результаты впечатляют: более чем двукратное превосходство над Claude Code и Codex при том же бюджете вычислений.
В чём проблема, которую решает Arbor
Представьте: вы запустили ИИ-агент для оптимизации RAG-пайплайна. Агент работает — меняет размер чанков, настройки ретривала, промпты — но делает это всё скопом. Когда точность выросла, невозможно понять, какое именно изменение помогло. А когда нет — невозможно понять, что пошло не так.
Как говорит соавтор исследования Цзяцзе Цзинь: «Автоматизация может заставить ИИ работать очень долго, но цикл — это не то же самое, что прогресс». Стандартные ИИ-агенты просто теряют результаты предыдущих попыток в бесконечном скролле контекста и повторяют одни и те же ошибки.
Как работает Arbor
Фреймворк разделяет работу на два уровня:
- Координатор — долгосрочный ИИ-агент, который действует как научный руководитель. Он не трогает код напрямую, а управляет состоянием исследования, формирует гипотезы и принимает решения на основе накопленных данных.
- Исполнители — краткосрочные агенты, каждый из которых тестирует ровно одну гипотезу в изолированной среде (отдельный git worktree). По завершении они возвращают результаты координатору.
Всё это объединяется через механизм Hypothesis Tree Refinement. Каждая ветка дерева — это гипотеза, исполняемый код, полученные данные и извлечённый урок. Если эксперимент провалился, система запоминает почему и больше не повторяет этот путь.
Результаты тестирования
- На задаче BrowseComp (оптимизация поискового агента) Arbor улучшил точность с 45,33% до 67,67%. Claude Code и Codex застряли на 50% и 53,33% соответственно.
- На бенчмарке MLE-Bench Lite Arbor с GPT-5.5 показал лучший результат среди всех протестированных систем, включая AI-Scientist и AIDE.
- Arbor оказался устойчив к «reward hacking» — на Terminal-Bench 2.0 Claude Code показал 75% на обучающих данных, но упал до 71% на тестовых. У Arbor показатель был ниже (72,22%), но на тестах — 77,36%.
- Оптимизации Arbor успешно перенеслись на неродственные задачи, что говорит о качестве не просто подгонки, а реального улучшения архитектуры.
Как это использовать на практике
Arbor построен поверх существующих Git-потоков. Его вывод — обычная git-ветка, которую можно проверить через CI и code-review. Основная ветка репозитория остаётся нетронутой до решения разработчика.
Но есть и обратная сторона: долгосрочный координатор потребляет значительное количество токенов. Это серьёзное ограничение, особенно когда речь идёт об автоматической оптимизации сложных систем — токен-расход может быстро съесть экономию от автоматизации.
Мнение редакции
Arbor — это не просто «ещё один ИИ-агент для кодинга». Это первый фреймворк, который серьёзно подошёл к проблеме накопления знаний в процессе автоматической оптимизации. Обычные агенты зацикливаются, повторяют ошибки, не умеют делать выводы. Arbor делает именно то, что отличает учёного от экспериментатора-любителя: систематизирует неудачные попытки и извлекает из них закономерности.
Для команд, которые серьёзно работают с RAG, ML-пайплайнами и агентными системами — это инструмент, который стоит попробовать уже сейчас. А если у вас нет доступа к топовым моделям — на stiva.ai вы найдёте десятки альтернатив, включая новые модели, которые отлично работают с фреймворками вроде Arbor.





