Qwen 3.5: как 17 млрд параметров побеждают триллионный монстр
Тихая революция к Лунному новому году
Пока весь мир следил за новостями об агентах и корпоративном лоббировании, Alibaba незаметно выпустила одну из самых интересных моделей 2026 года. Qwen3.5-397B-A17B — это флагман нового поколения с 397 миллиардами параметров, который при работе активирует лишь 17 миллиардов на каждый токен. И этого достаточно, чтобы превзойти собственную предыдущую модель Qwen3-Max — систему с более чем триллионом параметров. Релиз намеренно приурочен к Лунному новому году и стал настоящим сюрпризом для индустрии.
Архитектура: MoE как секретное оружие
За этим достижением стоит архитектура Mixture of Experts (MoE) — подход, при котором модель содержит множество специализированных «экспертных» подсетей, но для каждого входящего токена активирует лишь небольшое подмножество из них. В Qwen3.5 это 512 экспертов против 128 в предыдущем поколении Qwen3 MoE. Результат — вычислительная нагрузка, сравнимая с плотной 17B-моделью, при способности модели обращаться к глубокому пулу специализированных знаний.
- Скорость декодирования: в 19 раз быстрее Qwen3-Max при контексте 256K токенов
- Стоимость инференса: на 60% дешевле предшественника, в ~18 раз дешевле Gemini 3 Pro
- Пропускная способность: в 8 раз выше для параллельных запросов
- Контекстное окно: 256K в open-weight версии, до 1M токенов в облачной Qwen3.5-Plus
Нативная мультимодальность — не надстройка, а основа
Большинство мультимодальных моделей строятся по принципу «языковая база + прикрученный визуальный энкодер». Qwen3.5 отказывается от этого подхода: модель с нуля обучена одновременно на тексте, изображениях и видео. Это означает, что визуальное мышление встроено в саму структуру весов, а не добавлено сверху.
На практике это даёт преимущества при задачах, требующих тесного переплетения текста и изображений: анализ технических диаграмм, обработка скриншотов UI для агентских задач, извлечение структурированных данных из сложных визуальных макетов. По бенчмарку MathVista — 90.3 балла, MMMU — 85.0. Модель превосходит Claude Opus 4.5 в мультимодальных задачах и конкурирует с GPT-5.2.
Языковой охват: 201 язык и серьёзная экономия
Один из недооценённых аспектов релиза — расширенный словарь токенизатора: 250 тысяч токенов против 150 тысяч в предыдущих версиях Qwen. Языковая поддержка выросла со 119 до 201 языка и диалекта. Для глобальных команд это прямая экономия: более крупный словарь эффективнее кодирует нелатинские скрипты (арабский, тайский, корейский, японский, хинди), сокращая количество токенов на 15–40% в зависимости от языка — а значит, и счета за инференс.
Агентские возможности и OpenClaw
Alibaba позиционирует Qwen3.5 как агентскую модель, способную не просто отвечать на вопросы, но и выполнять многоэтапные автономные задачи. Компания выпустила Qwen Code — CLI-инструмент для делегирования сложных задач программирования на естественном языке, аналог Anthropic Claude Code. Примечательно, что в числе ключевых интеграций — совместимость с OpenClaw, open-source агентским фреймворком. Модель дополнительно обучена с использованием 15 000 различных сред reinforcement learning для повышения точности агентских задач.
Облачная версия Qwen3.5-Plus поддерживает три режима инференса: быстрый для чувствительных к задержке приложений, режим «размышления» (chain-of-thought) для сложных аналитических задач, и адаптивный автоматический режим.
Лицензия Apache 2.0: enterprise-мечта
Для корпоративных покупателей ключевая деталь — лицензия. Apache 2.0 разрешает коммерческое использование, модификацию и распространение без роялти и каких-либо значимых ограничений. Это радикальное отличие от моделей с кастомными лицензиями или ограничениями на commercial use. Для юридических и закупочных отделов это значительно упрощает procurement-процесс.
Для запуска квантизированной версии на собственном железе потребуется порядка 256–512 ГБ оперативной памяти — это не ноутбук, но это реальная инфраструктура, которой уже располагают многие enterprise-команды.
Итог: новые правила игры
Alibaba недвусмысленно демонстрирует: open-weight модели на фронтире — это уже не компромисс. Qwen3.5 предлагает рассуждения уровня GPT-5.2 и Gemini 3 Pro, нативную мультимодальность, миллионный контекст и чистую лицензию — без привязки к чужому API. Это меняет расчёты для любой команды, которая платит за проприетарный инференс и задумывается о контроле над собственной AI-инфраструктурой.
Подробности о модели и весах — в разборе VentureBeat. Веса доступны на Hugging Face, облачный доступ — через Alibaba Cloud Model Studio.