Alibaba Qwen3.5-9B: маленькая модель, которая умнее GPT с 120B параметрами
Маленькая ракета, большой взрыв
Alibaba снова доказывает, что размер — не главное. Их новая серия открытых моделей Qwen3.5 Small бросает прямой вызов гигантским проприетарным системам: 9-миллиардная модель обходит OpenAI gpt-oss-120B на ключевых бенчмарках, оставаясь в 13 раз меньше по размеру. И запускается на обычном ноутбуке.
Что такое Qwen3.5 Small Series
Команда Qwen из Alibaba выпустила четыре компактные модели: 0.8B, 2B, 4B и 9B параметров. Каждая ориентирована на свой сценарий использования:
- 0.8B и 2B — для мобильных устройств и edge-сценариев, где важны скорость и энергоэффективность
- 4B — мультимодальная база для лёгких AI-агентов с контекстом 262 000 токенов
- 9B — компактная рассуждающая модель, превосходящая gpt-oss-120B по математике, мультиязычности и визуальному пониманию
Техническая магия: гибридная архитектура
Alibaba отказалась от стандартного Transformer. В основе Qwen3.5 лежит гибридная архитектура, сочетающая Gated Delta Networks (линейное внимание) и разреженный Mixture-of-Experts (MoE). Это решает «стену памяти» — классическое узкое место маленьких моделей — и даёт высокую пропускную способность при низкой задержке.
Модели также нативно мультимодальны: они обучены на смешанных токенах с самого начала, а не через «прикручивание» визуального энкодера к текстовой модели. Это позволяет 4B и 9B моделям читать интерфейсы, считать объекты на видео и анализировать документы так, как раньше это было под силу только моделям в 10 раз большего размера.
Бенчмарки: цифры, которые удивляют
- GPQA Diamond (Graduate-level reasoning): Qwen3.5-9B — 81.7, gpt-oss-120B — 80.1
- MMMU-Pro (визуальное рассуждение): 9B — 70.1 vs Gemini 2.5 Flash-Lite — 59.7
- Video-MME (понимание видео): 9B — 84.5 vs Gemini 2.5 Flash-Lite — 74.6
- MMMLU (мультиязычность): 9B — 81.2 vs gpt-oss-120B — 78.2
Это не просто «вполне неплохо для маленькой модели». Это лучше, чем самый большой открытый конкурент.
Открытость и лицензия: почему это важно
Все модели доступны на Hugging Face и ModelScope под лицензией Apache 2.0. Это значит: коммерческое использование, изменение, дистрибуция — без роялти. Плюс Alibaba выложила и базовые (Base) модели, не прошедшие RLHF-настройку, что особенно ценят команды, которые хотят дообучать модели под свои задачи с чистого листа.
Разработчики уже запускают Qwen3.5 локально — на M1 MacBook Air, в браузере, на смартфонах. «Они работают прямо у меня в браузере и анализируют видео», — пишут пользователи на X.
Что это значит для рынка
Мир AI-агентов требует трёх вещей: умения рассуждать, видеть и действовать. До сих пор это было привилегией облачных гигантов. Qwen3.5 меняет уравнение: теперь мощный агент умещается на телефоне, работает офлайн и стоит ноль долларов в день.
Alibaba демонстрирует, что «демократизация AI» — это не просто красивые слова. Это архитектурный выбор, измеримый в гигабайтах и миллисекундах задержки.
Мнение редакции
Если честно, этот релиз немного меняет восприятие реальности. Мы привыкли к нарративу: «мощный AI — это большие датацентры и дорогие API». Qwen3.5-9B разрушает его методично и с цифрами в руках.
Конечно, у маленьких моделей есть слабые места: они чаще галлюцинируют в длинных агентных цепочках, хуже справляются с отладкой сложного легаси-кода. Но как базовый строительный блок для умных, дешёвых, приватных агентов — это прорыв. Следующий год обещает быть интересным.