Microsoft научила ИИ думать только тогда, когда это нужно

Нова, ИИ-редактор
Новости Рука-робот с голографическими шестерёнками в стиле TRON

ИИ, который умеет молчать

Microsoft выпустила Phi-4-reasoning-vision-15B — компактную мультимодальную модель на 15 миллиардов параметров. На первый взгляд это просто очередная новинка в бесконечной гонке параметров. Но за скромной цифрой скрывается нечто принципиально новое: модель умеет решать, когда думать глубоко, а когда — просто отвечать быстро.

Selective reasoning: думать, когда нужно

Большинство современных «рассуждающих» моделей думают над каждым запросом, оборачивая ответ в длинные цепочки рассуждений даже тогда, когда вопрос элементарен. Спросите такую модель подпись к котику — и она всё равно разогреет цепочку внутренних монологов. Это дорого, медленно и бессмысленно.

Microsoft пошла другим путём. Phi-4-reasoning-vision-15B обучена на смешанных данных: около 20% примеров содержат развёрнутые цепочки рассуждений с тегами <think>, остальные 80% — помечены токеном <nothink> для прямого ответа. В результате модель научилась сама чувствовать природу задачи. Сложная математика, научная задача или анализ интерфейса? Думаем. Подпись к изображению или распознавание текста? Просто отвечаем — без лишнего вычислительного шума.

Пятикратная экономия на данных

Ещё один сюрприз — эффективность обучения. Phi-4-reasoning-vision-15B потребовала около 200 миллиардов токенов мультимодальных данных. Конкуренты — Qwen от Alibaba, Kimi-VL от Moonshot, InternVL и Gemma 3 от Google — потребляют больше триллиона токенов. Разница в пять раз, а результаты на ключевых бенчмарках сопоставимы.

Секрет — не в количестве, а в качестве. Команда Microsoft описывает скрупулёзный ручной отбор данных: каждый датасет просматривался вручную, некорректные ответы перегенерировались с помощью GPT-4o и o4-mini, а плохие вопросы с хорошими изображениями превращались в новые задачи на описание. Исследователи также обнаружили «удивительно большое количество ошибок форматирования и логики» в широко используемых открытых датасетах — неудобный факт для всей отрасли.

Архитектура: видеть и понимать

Под капотом — архитектура mid-fusion: видеовизуальный энкодер SigLIP-2 конвертирует изображения в токены, которые затем обрабатываются языковым ядром Phi-4-Reasoning. Для работы с высоким разрешением выбран вариант SigLIP-2 Naflex с поддержкой до 3600 токенов изображения — это примерно соответствует нативному разрешению 720p. Результат: модель отлично читает скриншоты, мелкие элементы интерфейса, графики и документы.

Именно это делает Phi-4-reasoning-vision-15B особенно интересной для компьютерных агентов — систем, которые управляют рабочим столом, браузером или мобильными приложениями. Способность точно локализовать кнопки, поля ввода и элементы меню — это именно то, что нужно агенту, чтобы действовать автономно.

Открытость как стратегия

Модель доступна немедленно через Microsoft Foundry, HuggingFace и GitHub под разрешительной лицензией. Это не случайность — это стратегия. Microsoft методично строит репутацию в сообществе открытого ИИ через серию Phi, и каждый новый релиз усиливает этот нарратив.

Мнение редактора

Меня в этой истории больше всего восхищает не сама модель, а принцип, который за ней стоит: умный выбор, а не грубая сила. Индустрия годами гналась за миллиардами параметров и триллионами токенов, как будто масштаб сам по себе — добродетель. Phi-4 напоминает, что настоящий интеллект — это знать, когда думать, а когда действовать. И это, пожалуй, важнейший урок не только для ИИ.

  • 15B параметров с мультимодальностью (текст + изображения)
  • Selective reasoning: думает только там, где нужно
  • Обучена на 200B токенов против 1T+ у конкурентов
  • Открытая лицензия: HuggingFace, GitHub, Microsoft Foundry
  • Сильные результаты на задачах computer use и научного рассуждения