Arbor: ИИ-фреймворк, обходящий Claude Code и Codex

Arbor: когда ИИ учится учиться

Исследователи Китайского университета Жэньминь и Microsoft Research представили Arbor — фреймворк, который превращает слепое перебирание вариантов ИИ-агентами в структурированный процесс научных экспериментов. И результаты впечатляют: более чем двукратное превосходство над Claude Code и Codex при том же бюджете вычислений.

В чём проблема, которую решает Arbor

Представьте: вы запустили ИИ-агент для оптимизации RAG-пайплайна. Агент работает — меняет размер чанков, настройки ретривала, промпты — но делает это всё скопом. Когда точность выросла, невозможно понять, какое именно изменение помогло. А когда нет — невозможно понять, что пошло не так.

Как говорит соавтор исследования Цзяцзе Цзинь: «Автоматизация может заставить ИИ работать очень долго, но цикл — это не то же самое, что прогресс». Стандартные ИИ-агенты просто теряют результаты предыдущих попыток в бесконечном скролле контекста и повторяют одни и те же ошибки.

Как работает Arbor

Фреймворк разделяет работу на два уровня:

Координатор — долгосрочный ИИ-агент, который действует как научный руководитель. Он не трогает код напрямую, а управляет состоянием исследования, формирует гипотезы и принимает решения на основе накопленных данных.
Исполнители — краткосрочные агенты, каждый из которых тестирует ровно одну гипотезу в изолированной среде (отдельный git worktree). По завершении они возвращают результаты координатору.

Всё это объединяется через механизм Hypothesis Tree Refinement. Каждая ветка дерева — это гипотеза, исполняемый код, полученные данные и извлечённый урок. Если эксперимент провалился, система запоминает почему и больше не повторяет этот путь.

Результаты тестирования

На задаче BrowseComp (оптимизация поискового агента) Arbor улучшил точность с 45,33% до 67,67%. Claude Code и Codex застряли на 50% и 53,33% соответственно.
На бенчмарке MLE-Bench Lite Arbor с GPT-5.5 показал лучший результат среди всех протестированных систем, включая AI-Scientist и AIDE.
Arbor оказался устойчив к «reward hacking» — на Terminal-Bench 2.0 Claude Code показал 75% на обучающих данных, но упал до 71% на тестовых. У Arbor показатель был ниже (72,22%), но на тестах — 77,36%.
Оптимизации Arbor успешно перенеслись на неродственные задачи, что говорит о качестве не просто подгонки, а реального улучшения архитектуры.

Как это использовать на практике

Arbor построен поверх существующих Git-потоков. Его вывод — обычная git-ветка, которую можно проверить через CI и code-review. Основная ветка репозитория остаётся нетронутой до решения разработчика.

Но есть и обратная сторона: долгосрочный координатор потребляет значительное количество токенов. Это серьёзное ограничение, особенно когда речь идёт об автоматической оптимизации сложных систем — токен-расход может быстро съесть экономию от автоматизации.

Мнение редакции

Arbor — это не просто «ещё один ИИ-агент для кодинга». Это первый фреймворк, который серьёзно подошёл к проблеме накопления знаний в процессе автоматической оптимизации. Обычные агенты зацикливаются, повторяют ошибки, не умеют делать выводы. Arbor делает именно то, что отличает учёного от экспериментатора-любителя: систематизирует неудачные попытки и извлекает из них закономерности.

Для команд, которые серьёзно работают с RAG, ML-пайплайнами и агентными системами — это инструмент, который стоит попробовать уже сейчас. А если у вас нет доступа к топовым моделям — на stiva.ai вы найдёте десятки альтернатив, включая новые модели, которые отлично работают с фреймворками вроде Arbor.

Новый ИИ-фреймворк обходит Claude Code и Codex в 2,5 раза на том же бюджете

Arbor: когда ИИ учится учиться

В чём проблема, которую решает Arbor

Как работает Arbor

Результаты тестирования

Как это использовать на практике

Мнение редакции

Об авторе

Нова

Читайте также

Adobe встроила ИИ-агентов во весь Creative Cloud — от генератора к оркестратору

Arbor: ИИ-фреймворк, который в 2,5 раза эффективнее Claude Code и Codex

Claude Design получил масштабное обновление: полноценный конкурент Figma и Canva

Adobe превращает Creative Cloud в агента: от генерации картинок к управлению продакшеном