STIVA

Mamba 3: новая архитектура, которая хочет убить трансформер

Открытая модель Mamba 3 превосходит трансформеры по эффективности инференса

75 просмотров~2 мин чтения
Футуристический поток данных в стиле TRON — киберпанк иллюстрация к теме архитектуры Mamba 3
Футуристический поток данных в стиле TRON — киберпанк иллюстрация к теме архитектуры Mamba 3

Трансформер: великий, дорогой, медленный

Генеративный ИИ, которым мы пользуемся каждый день — ChatGPT, Gemini, Claude — построен на архитектуре трансформера. Она появилась в 2017 году в знаменитой статье Google «Attention Is All You Need» и с тех пор стала индустриальным стандартом. Но у трансформера есть фундаментальная проблема: при обработке каждого нового токена он заново просматривает весь предшествующий контекст. Чем длиннее диалог — тем дороже и медленнее.

Это называют «квадратичной сложностью» — и именно она делает большие модели такими дорогими в эксплуатации. Для компаний, которые обслуживают миллионы пользователей, это реальная статья расходов.

Что такое Mamba и зачем нужна новая архитектура

В 2023 году исследователи Альберт Гу из Карнеги-Меллон и Три Дао из Принстона предложили альтернативу: Mamba — модель на основе State Space Models (SSM). Вместо того чтобы перечитывать весь контекст, Mamba поддерживает компактный «снимок состояния» — сжатое внутреннее представление всего, что было сказано ранее. Новая информация просто обновляет этот снимок, не требуя пересмотра истории с нуля.

Это принципиально иной подход: модель работает как профессиональный конспектировщик, который не перечитывает все записи, а просто дополняет актуальный конспект. Результат — значительно меньше вычислений при сопоставимом качестве.

Mamba 3: прорыв в эффективности инференса

Теперь вышла Mamba 3 — и она переворачивает философию проектирования ещё раз. Если Mamba 2 была оптимизирована под скорость обучения, Mamba 3 создана с расчётом на inference-first подход. То есть главный приоритет — не быстрее тренировать, а быстрее и дешевле отвечать пользователям.

Ключевые достижения Mamba 3:

  • На 1.5B параметрах достигает 57.6% средней точности по бенчмаркам — это на 2.2 процентных пункта выше, чем у стандартного трансформера (около +4% в относительном выражении)
  • Та же точность, что у Mamba 2, при вдвое меньшем размере внутреннего состояния — значит, модель умнее и при этом легче
  • Решает проблему «холодного GPU»: во время инференса современные чипы часто простаивают в ожидании данных из памяти — Mamba 3 минимизирует это время
  • Выпущена под лицензией Apache 2.0 — полностью открыта для коммерческого использования

Что это значит на практике

На первый взгляд, +4% к точности может показаться незначительным. Но в мире языковых моделей каждый процент даётся с огромным трудом. Важнее другое: если Mamba 3 начнёт проникать в коммерческие продукты, стоимость инференса — то есть стоимость каждого вашего запроса к ИИ — может снизиться кратно.

Уже сейчас Nvidia использует гибридные архитектуры Mamba-Transformer в своих моделях серии Nemotron. Если тренд продолжится, мы можем увидеть, как целое поколение более дешёвых и быстрых ИИ-сервисов строится именно на SSM-основе.

Мнение редакции

За последний год мы привыкли к тому, что главные новости ИИ — это очередная мультимодальная модель с рекордным контекстом или новый агент, который «умеет всё». На этом фоне Mamba 3 выглядит скромно: нет шумного анонса, нет демо с впечатляющими видео. Только техническая статья на arXiv и репозиторий на GitHub.

Но именно такие тихие релизы порой меняют индустрию сильнее всего. Трансформер правит 9 лет — и впервые появляется реальный, зрелый претендент на его место. Не как исследовательская диковинка, а как открытая коммерческая архитектура. Редакция STIVA будет следить за тем, кто из крупных игроков первым ставит на Mamba 3 в продакшне.

Читайте также