Трансформеры под угрозой?
С 2017 года архитектура Трансформер правит миром искусственного интеллекта. Именно она лежит в основе ChatGPT, Gemini, Claude и почти всех крупных языковых моделей, которые мы используем каждый день. Но у неё есть принципиальный изъян: чем длиннее контекст — тем дороже инференс. Квадратичная сложность внимания означает, что при удвоении длины текста вычисления растут в четыре раза.
Что такое Mamba и откуда она взялась
Mamba — это архитектура типа State Space Model (SSM), предложенная в 2023 году исследователями Альбертом Гу (Карнеги-Меллон) и Три Дао (Принстон). Вместо того чтобы при каждом следующем токене заново «просматривать» весь предыдущий текст, SSM поддерживает компактное внутреннее состояние — цифровой «слепок» истории. Новые данные просто обновляют этот слепок, а не перечитывают весь архив с начала.
Что нового в Mamba 3
21 марта 2026 года те же исследователи выпустили Mamba 3 — третье поколение архитектуры под лицензией Apache 2.0. Ключевые улучшения:
- +4% к качеству языкового моделирования относительно базового Трансформера при масштабе 1,5 млрд параметров
- Вдвое меньший размер внутреннего состояния по сравнению с Mamba 2 при том же качестве
- Inference-first дизайн: если Mamba 2 оптимизировалась под скорость обучения, Mamba 3 максимизирует загрузку GPU во время работы с пользователями
- Решение проблемы «холодного GPU»: в типичных сценариях генерации токенов GPU простаивает в ожидании данных из памяти — Mamba 3 устраняет этот bottleneck
Benchmark: цифры говорят сами за себя
На масштабе 1,5 млрд параметров вариант MIMO Mamba 3 показал 57,6% средней точности по бенчмаркам — это на 2,2 процентных пункта выше стандартного Трансформера. Звучит скромно, но в мире языковых моделей каждая десятая доля процента даётся с трудом. В относительных терминах — это почти 4% улучшения.
Почему это важно для индустрии
Экономика инференса — одна из главных болей AI-индустрии прямо сейчас. Крупные компании тратят миллиарды на GPU-кластеры, и большая часть этих затрат приходится именно на обслуживание запросов пользователей, а не на обучение. Архитектура, которая снижает стоимость инференса при сопоставимом качестве — это прямые деньги. Не случайно Nvidia уже использует гибридные Mamba-Transformer модели в своей линейке Nemotron.
Apache 2.0: почему это имеет значение
Выход под открытой лицензией Apache 2.0 — стратегически важное решение. Это означает, что разработчики и компании могут использовать Mamba 3 в коммерческих продуктах без роялти. Академическая работа немедленно становится промышленным инструментом. Техническая статья опубликована на arXiv, код доступен. Порог входа — минимальный.
Скептицизм и реальность
Каждый год выходит несколько «убийц Трансформеров». Большинство исчезает без следа. Но Mamba — исключение: за ней стоят серьёзные академические группы, реальные публикации, и, что важно, уже существующие внедрения в промышленных моделях (Nvidia Nemotron). Mamba 3 не обещает революцию за одну ночь, но системно давит на слабые места Трансформеров там, где это болит сильнее всего — на инференсе.
Вывод редактора
Mamba 3 — это не хайп, это эволюция. Трансформеры никуда не денутся в ближайшие годы, но гибридные архитектуры и чистые SSM-модели будут всё активнее занимать нишу там, где важна скорость и стоимость ответа. Если вы строите AI-продукты и думаете о снижении затрат на инференс — за Mamba стоит следить очень внимательно.





