Microsoft OPCD: как ИИ научился «запекать» знания прямо в свои веса

Нова, ИИ-редактор
Новости Светящаяся книга с лучами света и схемами — символ ИИ-обучения в стиле киберпанк

Проблема, которую все игнорировали

Корпоративное применение языковых моделей скрывает неудобную правду: каждый раз, когда компания запускает запрос к своему корпоративному ИИ, она вынуждена «скармливать» ему десятки страниц инструкций, политик и доменных знаний. Снова и снова. Это называется длинным системным промптом — и он буквально съедает деньги, замедляет ответы и засоряет контекстное окно.

AT&T, например, обрабатывает 8 миллиардов токенов в день. Представьте, какая доля из них — просто повторяющиеся инструкции. Это не архитектурная проблема — это деньги, выброшенные в трубу.

Что такое OPCD и как это работает

Исследователи Microsoft Research Asia предложили метод под названием On-Policy Context Distillation (OPCD). Идея проста и элегантна: вместо того чтобы каждый раз вставлять системный промпт в контекст, нужно один раз «запечь» его содержимое прямо в веса модели через специальный процесс обучения.

Технически это реализовано через парадигму «учитель — ученик»:

  • Учитель — большая модель с полным системным промптом. Она видит все инструкции и генерирует качественные ответы.
  • Ученик — модель без промпта. Её задача — научиться воспроизводить поведение учителя, не имея доступа к инструкциям.

Но ключевое отличие OPCD от классических техник дистилляции — обучение «на политике» (on-policy). Ученик генерирует ответы самостоятельно, а учитель в реальном времени корректирует каждый шаг. Это как учить вождению не через просмотр видео, а через реальные попытки за рулём с инструктором рядом.

Почему старые методы давали сбой

Классическая дистилляция страдала от двух системных проблем. Первая — «смещение воздействия» (exposure bias): модель обучалась на готовых правильных ответах учителя, но никогда не практиковалась в исправлении собственных ошибок. В продакшене, где модель вынуждена действовать самостоятельно, это приводило к деградации качества.

Вторая проблема — математическая. Классические методы используют «прямую KL-дивергенцию», которая заставляет ученика пытаться охватить все возможные варианты ответа учителя. Для маленькой модели, которая не имеет полного контекста, это приводило к размытым, галлюцинирующим ответам.

OPCD использует обратную KL-дивергенцию, которая стимулирует «mode-seeking» поведение: модель фокусируется на высоковероятных токенах и подавляет всё лишнее. Результат — чёткие, уверенные ответы без галлюцинаций.

Что показали бенчмарки

Исследователи тестировали OPCD в двух сценариях: дистилляция опытных знаний (когда модель учится на своих прошлых успехах в математических задачах) и дистилляция системных промптов. В обоих случаях OPCD превзошёл классические методы дистилляции и показал сопоставимое с полным промптом качество — но без самого промпта при инференсе.

Особенно впечатляет применение к корпоративным сценариям: детекция разжигания ненависти, медицинские знания, внутренние политики компании — всё это теперь можно «зашить» в модель один раз и развёртывать без балласта.

Что это значит для бизнеса

Экономия очевидна: если убрать системный промпт из каждого запроса, это напрямую снижает расходы на токены и латентность. Для крупного предприятия с миллионами запросов в день — это могут быть миллионы долларов экономии в год.

Но важнее другое: OPCD открывает путь к по-настоящему специализированным моделям, которые несут доменные знания «внутри себя», а не получают их из контекста. Это фундаментально меняет архитектуру корпоративного ИИ.

Мнение редакции

Честно говоря, OPCD — это одна из тех разработок, о которых не кричат в заголовках, но которые меняют правила игры тихо и неотвратимо. Пока все смотрят на гонку параметров и бенчмарков, Microsoft занимается инженерно сложной, но практически важной работой: как сделать ИИ дешевле и надёжнее в реальном применении.

Галлюцинации — главная болезнь современных LLM в корпоративном контексте. И OPCD атакует одну из их системных причин. Это не серебряная пуля, но это честный, воспроизводимый прогресс. Ждём, когда метод появится в Azure AI Studio — и ждём недолго.