Революция от Sakana: когда маленькая модель управляет гигантами
Индустрия ИИ годами решала один вопрос — чья модель лучше. Разработчики выбирали между GPT-5, Claude Sonnet 4 и Gemini 2.5 Pro, застревая с одним провайдером и ограничивая себя его сильными и слабыми сторонами. Стартап Sakana AI показал, что пора думать иначе.
RL Conductor — ИИ, который сам решает, кому работать
Sakana AI создала систему под названием RL Conductor — компактную модель на 7 млрд параметров (на базе Qwen2.5-7B), обученную через reinforcement learning автоматически оркестрировать пул из семи моделей. Три флагмана — Gemini 2.5 Pro, Claude-Sonnet-4 и GPT-5 — плюс четыре опенсорсных модели. Conductor сам анализирует задачу, разбивает её на подзадачи, назначает исполнителей и выстраивает рабочие пайплайны.
Никакого ручного кодирования пайплайнов в LangChain или Mixture-of-Agents. Модель сама решает: для простого вопроса хватит одного шага, для сложной задачи по кодированию выстроит цепочку из четырёх агентов с планированием, реализацией и верификацией.
Цифры говорят сами за себя
- 93,3% на бенчмарке AIME25 по математике (олимпиадные задачи)
- 87,5% на GPQA-Diamond (научные вопросы уровня PhD)
- 83,93% на LiveCodeBench (реальные задачи по программированию)
- 77,27% — средний балл по всем задачам
- 1 820 токенов средний расход на запрос против 11 203 у MoA — в шесть раз экономнее
Conductor превзошёл как отдельные флагманские модели в одиночку, так и лучшие мульти-агентные фреймворки: MASRouter, Mixture-of-Agents, RouterDC и Smoothie. При этом использовал в среднем всего три шага на рабочий процесс.
Как это работает на практике
Наиболее интересное — что научился Conductor без подсказок от разработчиков. Он сам обнаружил, что Gemini 2.5 Pro и Claude Sonnet 4 отлично работают как высокоуровневые планировщики, а GPT-5 сильнее всего на финальной оптимизации кода. В сложных случаях Conductor даже делегировал планирование Gemini, позволив той диктовать подзадачи остальным — и это приносило лучшие результаты, чем если бы он контролировал всё сам.
Упрощённо говоря: маленькая модель-дирижёр поняла характеры каждого музыканта и написала партитуру, которая сыграла лучше, чем если бы все импровизировали одновременно.
От исследования к продукту: Sakana Fugu
Хотя сама 7B-модель из исследования не публична, Sakana AI выпустила коммерческий продукт Fugu — мульти-агентную систему оркестровки в бете, доступную через стандартный API совместимый с OpenAI. Есть два варианта: Fugu Mini для низкой задержки и Fugu Ultra для максимальной производительности. Целевые отрасли — финансы и оборонка, где жёсткие пайплайны ещё не дали значительного прироста продуктивности.
Почему это важно для индустрии
Ключевая идея RL Conductor подтверждает то, о чём давно говорят архитекторы ИИ-систем: ни одна модель — даже самая продвинутая — не является универсальным решением. Разные модели специализируются на разных задачах. Жёстко заданные пайплайны ломаются, как только меняется распределение запросов — а оно меняется всегда.
Динамическая оркестровка через обучение с подкреплением — это следующий эволюционный шаг. Сегодня это текст и код, завтра — кросс-модальные системы для робототехники и физической ИИ.
Мнение редакции
Sakana AI — маленький стартап, который показал миру, как нужно думать об ИИ-инфраструктуре. Не «какая модель лучшая», а «какая модель для этой задачи». Эта филосогия невероятно близка тому, что мы делаем на STIVA — даём пользователям доступ к десяткам моделей и помогаем выбирать правильную под конкретную задачу. Разница в том, что Sakana автоматизировала выбор, а мы — пока доверяем это человеку. Впрочем, судя по темпу развития отрасли, автоматизация маршрутизации — вопрос ближайшего времени.
Результаты впечатляют не только качеством, но и экономией. В 6 раз меньше токенов при лучших результатах — это аргумент, который поймёт любой бизнес. Остаётся вопрос: готовы ли крупные провайдеры принять роль «просто одного из инструментов» в пуле моделей? Ответ кажется очевидным.





