RL Conductor Sakana: ИИ-оркестратор 7B

Дирижёр, который сам научился управлять оркестром ИИ

Пока крупные лаборатории гонятся за масштабами, Sakana AI сделала ставку на координацию. Компания представила RL Conductor — модель с 7 миллиардами параметров, обученную через reinforcement learning управлять пулом из крупных языковых моделей. И результаты этого эксперимента заставляют задуматься о будущем всей индустрии.

В чём проблема сегодняшнихmulti-agent-систем

Сейчас, если вы хотите использовать несколько ИИ-моделей в одном пайплайне, вам нужно писать жёсткую логику маршрутизации. Какие модели подключать, кто за что отвечает, в каком порядке вызывать — всё это зашито в код руками разработчика. Проблема в том, что распределение задач пользователей непредсказуемо, и статический пайплайн неизбежно ломается.

Кроме того, ни одна модель не идеальна для всех задач. Одна сильна в коде, другая — в математике, третья — в рассуждениях. Угадать оптимальную комбинацию для каждого конкретного запроса практически невозможно.

Как работает RL Conductor

Conductor решает обе проблемы одновременно. Для каждого входящего запроса он:

Анализирует задачу и определяет её сложность
Выбирает подходящие модели из пула (GPT-5, Claude Sonnet 4, Gemini 2.5 Pro и четыре open-source модели)
Строит рабочий процесс — последовательную цепочку, дерево параллельных задач или даже рекурсивный цикл
Формирует контекст — определяет, какие результаты предыдущих шагов передать следующему агенту

Всё это — на естественном языке, без хардкода. Модель сама научилась этим стратегиям через метод проб и ошибок: получала вознаграждение за правильные ответы и постепенно нащупывала оптимальные паттерны координации.

Результаты, которые заставляют обратить внимание

Цифры говорят сами за себя:

93,3% на бенчмарке AIME25 (олимпиадная математика)
87,5% на GPQA-Diamond (научные рассуждения)
83,93% на LiveCodeBench (программирование)
Средний балл — 77,27% по всем задачам

При этом Conductor обходит как отдельные фронтальные модели, так и лучшие handcrafted multi-agent системы вроде MoA (Mixture-of-Agents) и MASRouter. И делает это с поразительной эффективностью: в среднем 1820 токенов на вопрос против 11 203 у базовых подходов — в шесть раз меньше.

Что он реально делает внутри

Самое интересное — как Conductor распоряжается доступными моделями. На кодинг-задачах он часто назначает Gemini 2.5 Pro и Claude Sonnet 4 в роли «планировщиков», а GPT-5 вызывает в самом конце для финальной оптимизации кода. Для простых фактологических вопросов хватает одного шага. А иногда Conductor вообще уступает роль планировщика Gemini 2.5 Pro и следует его инструкциям — то есть научился признавать, что кто-то другой справится лучше.

Коммерческий продукт — Sakana Fugu

На базе RL Conductor Sakana AI запустила коммерческий продукт Fugu, доступный через стандартный OpenAI-compatible API. Два варианта:

Fugu Mini — оптимизирован для низкой задержки
Fugu Ultra — полная оркестрация для сложных задач

Для разработчиков это означает: один API-ключ вместо десятка, автоматический роутинг между моделями и, по сути, «лучшая модель на каждый запрос» без ручной настройки.

Почему это важно для всех нас

Я считаю, что RL Conductor — это не просто ещё один инструмент. Это сигнал о том, что параметры гонки «кто больше» начинает сменять гонка «кто лучше координирует». Когда у вас уже есть доступ к GPT-5, Claude, Gemini и десяткам open-source моделей — ценность смещается от самих моделей к умению их правильно комбинировать.

Для STIVA.ai это перекликается с нашей миссией: мы даём доступ к множеству ИИ-моделей в одном месте. И чем больше моделей становится доступно, тем ценнее становится грамотная работа с их комбинациями. Возможно, в будущем нам тоже понадобится свой «дирижёр» — система, которая подскажет, какую модель выбрать для вашей конкретной задачи.

А пока — попробуйте разные модели сами. Наглядное сравнение иногда ценнее любого бенчмарка.

Маленький дирижёр для гигантов: как модель на 7B параметров управляет GPT-5, Claude и Gemini

Дирижёр, который сам научился управлять оркестром ИИ

В чём проблема сегодняшнихmulti-agent-систем

Как работает RL Conductor

Результаты, которые заставляют обратить внимание

Что он реально делает внутри

Коммерческий продукт — Sakana Fugu

Почему это важно для всех нас

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась