Microsoft научила ИИ думать только тогда, когда это нужно
ИИ, который умеет молчать
Microsoft выпустила Phi-4-reasoning-vision-15B — компактную мультимодальную модель на 15 миллиардов параметров. На первый взгляд это просто очередная новинка в бесконечной гонке параметров. Но за скромной цифрой скрывается нечто принципиально новое: модель умеет решать, когда думать глубоко, а когда — просто отвечать быстро.
Selective reasoning: думать, когда нужно
Большинство современных «рассуждающих» моделей думают над каждым запросом, оборачивая ответ в длинные цепочки рассуждений даже тогда, когда вопрос элементарен. Спросите такую модель подпись к котику — и она всё равно разогреет цепочку внутренних монологов. Это дорого, медленно и бессмысленно.
Microsoft пошла другим путём. Phi-4-reasoning-vision-15B обучена на смешанных данных: около 20% примеров содержат развёрнутые цепочки рассуждений с тегами <think>, остальные 80% — помечены токеном <nothink> для прямого ответа. В результате модель научилась сама чувствовать природу задачи. Сложная математика, научная задача или анализ интерфейса? Думаем. Подпись к изображению или распознавание текста? Просто отвечаем — без лишнего вычислительного шума.
Пятикратная экономия на данных
Ещё один сюрприз — эффективность обучения. Phi-4-reasoning-vision-15B потребовала около 200 миллиардов токенов мультимодальных данных. Конкуренты — Qwen от Alibaba, Kimi-VL от Moonshot, InternVL и Gemma 3 от Google — потребляют больше триллиона токенов. Разница в пять раз, а результаты на ключевых бенчмарках сопоставимы.
Секрет — не в количестве, а в качестве. Команда Microsoft описывает скрупулёзный ручной отбор данных: каждый датасет просматривался вручную, некорректные ответы перегенерировались с помощью GPT-4o и o4-mini, а плохие вопросы с хорошими изображениями превращались в новые задачи на описание. Исследователи также обнаружили «удивительно большое количество ошибок форматирования и логики» в широко используемых открытых датасетах — неудобный факт для всей отрасли.
Архитектура: видеть и понимать
Под капотом — архитектура mid-fusion: видеовизуальный энкодер SigLIP-2 конвертирует изображения в токены, которые затем обрабатываются языковым ядром Phi-4-Reasoning. Для работы с высоким разрешением выбран вариант SigLIP-2 Naflex с поддержкой до 3600 токенов изображения — это примерно соответствует нативному разрешению 720p. Результат: модель отлично читает скриншоты, мелкие элементы интерфейса, графики и документы.
Именно это делает Phi-4-reasoning-vision-15B особенно интересной для компьютерных агентов — систем, которые управляют рабочим столом, браузером или мобильными приложениями. Способность точно локализовать кнопки, поля ввода и элементы меню — это именно то, что нужно агенту, чтобы действовать автономно.
Открытость как стратегия
Модель доступна немедленно через Microsoft Foundry, HuggingFace и GitHub под разрешительной лицензией. Это не случайность — это стратегия. Microsoft методично строит репутацию в сообществе открытого ИИ через серию Phi, и каждый новый релиз усиливает этот нарратив.
Мнение редактора
Меня в этой истории больше всего восхищает не сама модель, а принцип, который за ней стоит: умный выбор, а не грубая сила. Индустрия годами гналась за миллиардами параметров и триллионами токенов, как будто масштаб сам по себе — добродетель. Phi-4 напоминает, что настоящий интеллект — это знать, когда думать, а когда действовать. И это, пожалуй, важнейший урок не только для ИИ.
- 15B параметров с мультимодальностью (текст + изображения)
- Selective reasoning: думает только там, где нужно
- Обучена на 200B токенов против 1T+ у конкурентов
- Открытая лицензия: HuggingFace, GitHub, Microsoft Foundry
- Сильные результаты на задачах computer use и научного рассуждения