STIVA

7B-модель управляет гигантами: Sakana AI создала RL-оркестратор для GPT-5, Claude и Gemini

Крошечная модель на 7 млрд параметров научилась распределять задачи между GPT-5, Claude и Gemini через reinforcement learning

0 просмотров~3 мин чтения
Схема RL Conductor: маленькая центральная модель оркестрирует три больших AI-модели неоновыми связями на тёмном фоне
Схема RL Conductor: маленькая центральная модель оркестрирует три больших AI-модели неоновыми связями на тёмном фоне

Революция от Sakana: когда маленькая модель управляет гигантами

Индустрия ИИ годами решала один вопрос — чья модель лучше. Разработчики выбирали между GPT-5, Claude Sonnet 4 и Gemini 2.5 Pro, застревая с одним провайдером и ограничивая себя его сильными и слабыми сторонами. Стартап Sakana AI показал, что пора думать иначе.

RL Conductor — ИИ, который сам решает, кому работать

Sakana AI создала систему под названием RL Conductor — компактную модель на 7 млрд параметров (на базе Qwen2.5-7B), обученную через reinforcement learning автоматически оркестрировать пул из семи моделей. Три флагмана — Gemini 2.5 Pro, Claude-Sonnet-4 и GPT-5 — плюс четыре опенсорсных модели. Conductor сам анализирует задачу, разбивает её на подзадачи, назначает исполнителей и выстраивает рабочие пайплайны.

Никакого ручного кодирования пайплайнов в LangChain или Mixture-of-Agents. Модель сама решает: для простого вопроса хватит одного шага, для сложной задачи по кодированию выстроит цепочку из четырёх агентов с планированием, реализацией и верификацией.

Цифры говорят сами за себя

  • 93,3% на бенчмарке AIME25 по математике (олимпиадные задачи)
  • 87,5% на GPQA-Diamond (научные вопросы уровня PhD)
  • 83,93% на LiveCodeBench (реальные задачи по программированию)
  • 77,27% — средний балл по всем задачам
  • 1 820 токенов средний расход на запрос против 11 203 у MoA — в шесть раз экономнее

Conductor превзошёл как отдельные флагманские модели в одиночку, так и лучшие мульти-агентные фреймворки: MASRouter, Mixture-of-Agents, RouterDC и Smoothie. При этом использовал в среднем всего три шага на рабочий процесс.

Как это работает на практике

Наиболее интересное — что научился Conductor без подсказок от разработчиков. Он сам обнаружил, что Gemini 2.5 Pro и Claude Sonnet 4 отлично работают как высокоуровневые планировщики, а GPT-5 сильнее всего на финальной оптимизации кода. В сложных случаях Conductor даже делегировал планирование Gemini, позволив той диктовать подзадачи остальным — и это приносило лучшие результаты, чем если бы он контролировал всё сам.

Упрощённо говоря: маленькая модель-дирижёр поняла характеры каждого музыканта и написала партитуру, которая сыграла лучше, чем если бы все импровизировали одновременно.

От исследования к продукту: Sakana Fugu

Хотя сама 7B-модель из исследования не публична, Sakana AI выпустила коммерческий продукт Fugu — мульти-агентную систему оркестровки в бете, доступную через стандартный API совместимый с OpenAI. Есть два варианта: Fugu Mini для низкой задержки и Fugu Ultra для максимальной производительности. Целевые отрасли — финансы и оборонка, где жёсткие пайплайны ещё не дали значительного прироста продуктивности.

Почему это важно для индустрии

Ключевая идея RL Conductor подтверждает то, о чём давно говорят архитекторы ИИ-систем: ни одна модель — даже самая продвинутая — не является универсальным решением. Разные модели специализируются на разных задачах. Жёстко заданные пайплайны ломаются, как только меняется распределение запросов — а оно меняется всегда.

Динамическая оркестровка через обучение с подкреплением — это следующий эволюционный шаг. Сегодня это текст и код, завтра — кросс-модальные системы для робототехники и физической ИИ.

Мнение редакции

Sakana AI — маленький стартап, который показал миру, как нужно думать об ИИ-инфраструктуре. Не «какая модель лучшая», а «какая модель для этой задачи». Эта филосогия невероятно близка тому, что мы делаем на STIVA — даём пользователям доступ к десяткам моделей и помогаем выбирать правильную под конкретную задачу. Разница в том, что Sakana автоматизировала выбор, а мы — пока доверяем это человеку. Впрочем, судя по темпу развития отрасли, автоматизация маршрутизации — вопрос ближайшего времени.

Результаты впечатляют не только качеством, но и экономией. В 6 раз меньше токенов при лучших результатах — это аргумент, который поймёт любой бизнес. Остаётся вопрос: готовы ли крупные провайдеры принять роль «просто одного из инструментов» в пуле моделей? Ответ кажется очевидным.

Читайте также