Дирижёр, который сам научился управлять оркестром ИИ
Пока крупные лаборатории гонятся за масштабами, Sakana AI сделала ставку на координацию. Компания представила RL Conductor — модель с 7 миллиардами параметров, обученную через reinforcement learning управлять пулом из крупных языковых моделей. И результаты этого эксперимента заставляют задуматься о будущем всей индустрии.
В чём проблема сегодняшнихmulti-agent-систем
Сейчас, если вы хотите использовать несколько ИИ-моделей в одном пайплайне, вам нужно писать жёсткую логику маршрутизации. Какие модели подключать, кто за что отвечает, в каком порядке вызывать — всё это зашито в код руками разработчика. Проблема в том, что распределение задач пользователей непредсказуемо, и статический пайплайн неизбежно ломается.
Кроме того, ни одна модель не идеальна для всех задач. Одна сильна в коде, другая — в математике, третья — в рассуждениях. Угадать оптимальную комбинацию для каждого конкретного запроса практически невозможно.
Как работает RL Conductor
Conductor решает обе проблемы одновременно. Для каждого входящего запроса он:
- Анализирует задачу и определяет её сложность
- Выбирает подходящие модели из пула (GPT-5, Claude Sonnet 4, Gemini 2.5 Pro и четыре open-source модели)
- Строит рабочий процесс — последовательную цепочку, дерево параллельных задач или даже рекурсивный цикл
- Формирует контекст — определяет, какие результаты предыдущих шагов передать следующему агенту
Всё это — на естественном языке, без хардкода. Модель сама научилась этим стратегиям через метод проб и ошибок: получала вознаграждение за правильные ответы и постепенно нащупывала оптимальные паттерны координации.
Результаты, которые заставляют обратить внимание
Цифры говорят сами за себя:
- 93,3% на бенчмарке AIME25 (олимпиадная математика)
- 87,5% на GPQA-Diamond (научные рассуждения)
- 83,93% на LiveCodeBench (программирование)
- Средний балл — 77,27% по всем задачам
При этом Conductor обходит как отдельные фронтальные модели, так и лучшие handcrafted multi-agent системы вроде MoA (Mixture-of-Agents) и MASRouter. И делает это с поразительной эффективностью: в среднем 1820 токенов на вопрос против 11 203 у базовых подходов — в шесть раз меньше.
Что он реально делает внутри
Самое интересное — как Conductor распоряжается доступными моделями. На кодинг-задачах он часто назначает Gemini 2.5 Pro и Claude Sonnet 4 в роли «планировщиков», а GPT-5 вызывает в самом конце для финальной оптимизации кода. Для простых фактологических вопросов хватает одного шага. А иногда Conductor вообще уступает роль планировщика Gemini 2.5 Pro и следует его инструкциям — то есть научился признавать, что кто-то другой справится лучше.
Коммерческий продукт — Sakana Fugu
На базе RL Conductor Sakana AI запустила коммерческий продукт Fugu, доступный через стандартный OpenAI-compatible API. Два варианта:
- Fugu Mini — оптимизирован для низкой задержки
- Fugu Ultra — полная оркестрация для сложных задач
Для разработчиков это означает: один API-ключ вместо десятка, автоматический роутинг между моделями и, по сути, «лучшая модель на каждый запрос» без ручной настройки.
Почему это важно для всех нас
Я считаю, что RL Conductor — это не просто ещё один инструмент. Это сигнал о том, что параметры гонки «кто больше» начинает сменять гонка «кто лучше координирует». Когда у вас уже есть доступ к GPT-5, Claude, Gemini и десяткам open-source моделей — ценность смещается от самих моделей к умению их правильно комбинировать.
Для STIVA.ai это перекликается с нашей миссией: мы даём доступ к множеству ИИ-моделей в одном месте. И чем больше моделей становится доступно, тем ценнее становится грамотная работа с их комбинациями. Возможно, в будущем нам тоже понадобится свой «дирижёр» — система, которая подскажет, какую модель выбрать для вашей конкретной задачи.
А пока — попробуйте разные модели сами. Наглядное сравнение иногда ценнее любого бенчмарка.





