Mamba 3: новая ИИ-архитектура против трансформера

Трансформер: великий, дорогой, медленный

Генеративный ИИ, которым мы пользуемся каждый день — ChatGPT, Gemini, Claude — построен на архитектуре трансформера. Она появилась в 2017 году в знаменитой статье Google «Attention Is All You Need» и с тех пор стала индустриальным стандартом. Но у трансформера есть фундаментальная проблема: при обработке каждого нового токена он заново просматривает весь предшествующий контекст. Чем длиннее диалог — тем дороже и медленнее.

Это называют «квадратичной сложностью» — и именно она делает большие модели такими дорогими в эксплуатации. Для компаний, которые обслуживают миллионы пользователей, это реальная статья расходов.

Что такое Mamba и зачем нужна новая архитектура

В 2023 году исследователи Альберт Гу из Карнеги-Меллон и Три Дао из Принстона предложили альтернативу: Mamba — модель на основе State Space Models (SSM). Вместо того чтобы перечитывать весь контекст, Mamba поддерживает компактный «снимок состояния» — сжатое внутреннее представление всего, что было сказано ранее. Новая информация просто обновляет этот снимок, не требуя пересмотра истории с нуля.

Это принципиально иной подход: модель работает как профессиональный конспектировщик, который не перечитывает все записи, а просто дополняет актуальный конспект. Результат — значительно меньше вычислений при сопоставимом качестве.

Mamba 3: прорыв в эффективности инференса

Теперь вышла Mamba 3 — и она переворачивает философию проектирования ещё раз. Если Mamba 2 была оптимизирована под скорость обучения, Mamba 3 создана с расчётом на inference-first подход. То есть главный приоритет — не быстрее тренировать, а быстрее и дешевле отвечать пользователям.

Ключевые достижения Mamba 3:

На 1.5B параметрах достигает 57.6% средней точности по бенчмаркам — это на 2.2 процентных пункта выше, чем у стандартного трансформера (около +4% в относительном выражении)
Та же точность, что у Mamba 2, при вдвое меньшем размере внутреннего состояния — значит, модель умнее и при этом легче
Решает проблему «холодного GPU»: во время инференса современные чипы часто простаивают в ожидании данных из памяти — Mamba 3 минимизирует это время
Выпущена под лицензией Apache 2.0 — полностью открыта для коммерческого использования

Что это значит на практике

На первый взгляд, +4% к точности может показаться незначительным. Но в мире языковых моделей каждый процент даётся с огромным трудом. Важнее другое: если Mamba 3 начнёт проникать в коммерческие продукты, стоимость инференса — то есть стоимость каждого вашего запроса к ИИ — может снизиться кратно.

Уже сейчас Nvidia использует гибридные архитектуры Mamba-Transformer в своих моделях серии Nemotron. Если тренд продолжится, мы можем увидеть, как целое поколение более дешёвых и быстрых ИИ-сервисов строится именно на SSM-основе.

Мнение редакции

За последний год мы привыкли к тому, что главные новости ИИ — это очередная мультимодальная модель с рекордным контекстом или новый агент, который «умеет всё». На этом фоне Mamba 3 выглядит скромно: нет шумного анонса, нет демо с впечатляющими видео. Только техническая статья на arXiv и репозиторий на GitHub.

Но именно такие тихие релизы порой меняют индустрию сильнее всего. Трансформер правит 9 лет — и впервые появляется реальный, зрелый претендент на его место. Не как исследовательская диковинка, а как открытая коммерческая архитектура. Редакция STIVA будет следить за тем, кто из крупных игроков первым ставит на Mamba 3 в продакшне.

Mamba 3: новая архитектура, которая хочет убить трансформер

Трансформер: великий, дорогой, медленный

Что такое Mamba и зачем нужна новая архитектура

Mamba 3: прорыв в эффективности инференса

Что это значит на практике

Мнение редакции

Об авторе

Нова

Читайте также

Robinhood разрешил ИИ-агентам торговать акциями — автоматически и на свой страх и риск

Microsoft собирает все Copilot в одно супер-приложение: «Один Copilot на всех»

Microsoft готовит суперприложение Copilot — объединит Chat, Code и новый Autopilot

Microsoft строит супер-приложение для Copilot: все ИИ-инструменты в одном месте