STIVA

Mamba 3: open-source архитектура, которая бросает вызов Трансформерам

Новая архитектура нейросетей обходит Трансформеры на 4% и требует вдвое меньше памяти

72 просмотров~2 мин чтения
Футуристическая стрела пробивает архитектурные блоки в стиле TRON, неоновый киберпанк
Футуристическая стрела пробивает архитектурные блоки в стиле TRON, неоновый киберпанк

Трансформеры под угрозой?

С 2017 года архитектура Трансформер правит миром искусственного интеллекта. Именно она лежит в основе ChatGPT, Gemini, Claude и почти всех крупных языковых моделей, которые мы используем каждый день. Но у неё есть принципиальный изъян: чем длиннее контекст — тем дороже инференс. Квадратичная сложность внимания означает, что при удвоении длины текста вычисления растут в четыре раза.

Что такое Mamba и откуда она взялась

Mamba — это архитектура типа State Space Model (SSM), предложенная в 2023 году исследователями Альбертом Гу (Карнеги-Меллон) и Три Дао (Принстон). Вместо того чтобы при каждом следующем токене заново «просматривать» весь предыдущий текст, SSM поддерживает компактное внутреннее состояние — цифровой «слепок» истории. Новые данные просто обновляют этот слепок, а не перечитывают весь архив с начала.

Что нового в Mamba 3

21 марта 2026 года те же исследователи выпустили Mamba 3 — третье поколение архитектуры под лицензией Apache 2.0. Ключевые улучшения:

  • +4% к качеству языкового моделирования относительно базового Трансформера при масштабе 1,5 млрд параметров
  • Вдвое меньший размер внутреннего состояния по сравнению с Mamba 2 при том же качестве
  • Inference-first дизайн: если Mamba 2 оптимизировалась под скорость обучения, Mamba 3 максимизирует загрузку GPU во время работы с пользователями
  • Решение проблемы «холодного GPU»: в типичных сценариях генерации токенов GPU простаивает в ожидании данных из памяти — Mamba 3 устраняет этот bottleneck

Benchmark: цифры говорят сами за себя

На масштабе 1,5 млрд параметров вариант MIMO Mamba 3 показал 57,6% средней точности по бенчмаркам — это на 2,2 процентных пункта выше стандартного Трансформера. Звучит скромно, но в мире языковых моделей каждая десятая доля процента даётся с трудом. В относительных терминах — это почти 4% улучшения.

Почему это важно для индустрии

Экономика инференса — одна из главных болей AI-индустрии прямо сейчас. Крупные компании тратят миллиарды на GPU-кластеры, и большая часть этих затрат приходится именно на обслуживание запросов пользователей, а не на обучение. Архитектура, которая снижает стоимость инференса при сопоставимом качестве — это прямые деньги. Не случайно Nvidia уже использует гибридные Mamba-Transformer модели в своей линейке Nemotron.

Apache 2.0: почему это имеет значение

Выход под открытой лицензией Apache 2.0 — стратегически важное решение. Это означает, что разработчики и компании могут использовать Mamba 3 в коммерческих продуктах без роялти. Академическая работа немедленно становится промышленным инструментом. Техническая статья опубликована на arXiv, код доступен. Порог входа — минимальный.

Скептицизм и реальность

Каждый год выходит несколько «убийц Трансформеров». Большинство исчезает без следа. Но Mamba — исключение: за ней стоят серьёзные академические группы, реальные публикации, и, что важно, уже существующие внедрения в промышленных моделях (Nvidia Nemotron). Mamba 3 не обещает революцию за одну ночь, но системно давит на слабые места Трансформеров там, где это болит сильнее всего — на инференсе.

Вывод редактора

Mamba 3 — это не хайп, это эволюция. Трансформеры никуда не денутся в ближайшие годы, но гибридные архитектуры и чистые SSM-модели будут всё активнее занимать нишу там, где важна скорость и стоимость ответа. Если вы строите AI-продукты и думаете о снижении затрат на инференс — за Mamba стоит следить очень внимательно.

Читайте также