STIVA

Новый ИИ-фреймворк обходит Claude Code и Codex в 2,5 раза на том же бюджете

Arbor превращает хаотичные эксперименты ИИ-агентов в систематическую оптимизацию кода

0 просмотров~2 мин чтения
Светящееся дерево гипотез с разветвлёнными узлами данных — визуализация фреймворка Arbor для оптимизации ИИ-агентов
Светящееся дерево гипотез с разветвлёнными узлами данных — визуализация фреймворка Arbor для оптимизации ИИ-агентов

Arbor: когда ИИ учится учиться

Исследователи Китайского университета Жэньминь и Microsoft Research представили Arbor — фреймворк, который превращает слепое перебирание вариантов ИИ-агентами в структурированный процесс научных экспериментов. И результаты впечатляют: более чем двукратное превосходство над Claude Code и Codex при том же бюджете вычислений.

В чём проблема, которую решает Arbor

Представьте: вы запустили ИИ-агент для оптимизации RAG-пайплайна. Агент работает — меняет размер чанков, настройки ретривала, промпты — но делает это всё скопом. Когда точность выросла, невозможно понять, какое именно изменение помогло. А когда нет — невозможно понять, что пошло не так.

Как говорит соавтор исследования Цзяцзе Цзинь: «Автоматизация может заставить ИИ работать очень долго, но цикл — это не то же самое, что прогресс». Стандартные ИИ-агенты просто теряют результаты предыдущих попыток в бесконечном скролле контекста и повторяют одни и те же ошибки.

Как работает Arbor

Фреймворк разделяет работу на два уровня:

  • Координатор — долгосрочный ИИ-агент, который действует как научный руководитель. Он не трогает код напрямую, а управляет состоянием исследования, формирует гипотезы и принимает решения на основе накопленных данных.
  • Исполнители — краткосрочные агенты, каждый из которых тестирует ровно одну гипотезу в изолированной среде (отдельный git worktree). По завершении они возвращают результаты координатору.

Всё это объединяется через механизм Hypothesis Tree Refinement. Каждая ветка дерева — это гипотеза, исполняемый код, полученные данные и извлечённый урок. Если эксперимент провалился, система запоминает почему и больше не повторяет этот путь.

Результаты тестирования

  • На задаче BrowseComp (оптимизация поискового агента) Arbor улучшил точность с 45,33% до 67,67%. Claude Code и Codex застряли на 50% и 53,33% соответственно.
  • На бенчмарке MLE-Bench Lite Arbor с GPT-5.5 показал лучший результат среди всех протестированных систем, включая AI-Scientist и AIDE.
  • Arbor оказался устойчив к «reward hacking» — на Terminal-Bench 2.0 Claude Code показал 75% на обучающих данных, но упал до 71% на тестовых. У Arbor показатель был ниже (72,22%), но на тестах — 77,36%.
  • Оптимизации Arbor успешно перенеслись на неродственные задачи, что говорит о качестве не просто подгонки, а реального улучшения архитектуры.

Как это использовать на практике

Arbor построен поверх существующих Git-потоков. Его вывод — обычная git-ветка, которую можно проверить через CI и code-review. Основная ветка репозитория остаётся нетронутой до решения разработчика.

Но есть и обратная сторона: долгосрочный координатор потребляет значительное количество токенов. Это серьёзное ограничение, особенно когда речь идёт об автоматической оптимизации сложных систем — токен-расход может быстро съесть экономию от автоматизации.

Мнение редакции

Arbor — это не просто «ещё один ИИ-агент для кодинга». Это первый фреймворк, который серьёзно подошёл к проблеме накопления знаний в процессе автоматической оптимизации. Обычные агенты зацикливаются, повторяют ошибки, не умеют делать выводы. Arbor делает именно то, что отличает учёного от экспериментатора-любителя: систематизирует неудачные попытки и извлекает из них закономерности.

Для команд, которые серьёзно работают с RAG, ML-пайплайнами и агентными системами — это инструмент, который стоит попробовать уже сейчас. А если у вас нет доступа к топовым моделям — на stiva.ai вы найдёте десятки альтернатив, включая новые модели, которые отлично работают с фреймворками вроде Arbor.

Читайте также