Microsoft OPCD: как ИИ научился «запекать» знания прямо в свои веса
Проблема, которую все игнорировали
Корпоративное применение языковых моделей скрывает неудобную правду: каждый раз, когда компания запускает запрос к своему корпоративному ИИ, она вынуждена «скармливать» ему десятки страниц инструкций, политик и доменных знаний. Снова и снова. Это называется длинным системным промптом — и он буквально съедает деньги, замедляет ответы и засоряет контекстное окно.
AT&T, например, обрабатывает 8 миллиардов токенов в день. Представьте, какая доля из них — просто повторяющиеся инструкции. Это не архитектурная проблема — это деньги, выброшенные в трубу.
Что такое OPCD и как это работает
Исследователи Microsoft Research Asia предложили метод под названием On-Policy Context Distillation (OPCD). Идея проста и элегантна: вместо того чтобы каждый раз вставлять системный промпт в контекст, нужно один раз «запечь» его содержимое прямо в веса модели через специальный процесс обучения.
Технически это реализовано через парадигму «учитель — ученик»:
- Учитель — большая модель с полным системным промптом. Она видит все инструкции и генерирует качественные ответы.
- Ученик — модель без промпта. Её задача — научиться воспроизводить поведение учителя, не имея доступа к инструкциям.
Но ключевое отличие OPCD от классических техник дистилляции — обучение «на политике» (on-policy). Ученик генерирует ответы самостоятельно, а учитель в реальном времени корректирует каждый шаг. Это как учить вождению не через просмотр видео, а через реальные попытки за рулём с инструктором рядом.
Почему старые методы давали сбой
Классическая дистилляция страдала от двух системных проблем. Первая — «смещение воздействия» (exposure bias): модель обучалась на готовых правильных ответах учителя, но никогда не практиковалась в исправлении собственных ошибок. В продакшене, где модель вынуждена действовать самостоятельно, это приводило к деградации качества.
Вторая проблема — математическая. Классические методы используют «прямую KL-дивергенцию», которая заставляет ученика пытаться охватить все возможные варианты ответа учителя. Для маленькой модели, которая не имеет полного контекста, это приводило к размытым, галлюцинирующим ответам.
OPCD использует обратную KL-дивергенцию, которая стимулирует «mode-seeking» поведение: модель фокусируется на высоковероятных токенах и подавляет всё лишнее. Результат — чёткие, уверенные ответы без галлюцинаций.
Что показали бенчмарки
Исследователи тестировали OPCD в двух сценариях: дистилляция опытных знаний (когда модель учится на своих прошлых успехах в математических задачах) и дистилляция системных промптов. В обоих случаях OPCD превзошёл классические методы дистилляции и показал сопоставимое с полным промптом качество — но без самого промпта при инференсе.
Особенно впечатляет применение к корпоративным сценариям: детекция разжигания ненависти, медицинские знания, внутренние политики компании — всё это теперь можно «зашить» в модель один раз и развёртывать без балласта.
Что это значит для бизнеса
Экономия очевидна: если убрать системный промпт из каждого запроса, это напрямую снижает расходы на токены и латентность. Для крупного предприятия с миллионами запросов в день — это могут быть миллионы долларов экономии в год.
Но важнее другое: OPCD открывает путь к по-настоящему специализированным моделям, которые несут доменные знания «внутри себя», а не получают их из контекста. Это фундаментально меняет архитектуру корпоративного ИИ.
Мнение редакции
Честно говоря, OPCD — это одна из тех разработок, о которых не кричат в заголовках, но которые меняют правила игры тихо и неотвратимо. Пока все смотрят на гонку параметров и бенчмарков, Microsoft занимается инженерно сложной, но практически важной работой: как сделать ИИ дешевле и надёжнее в реальном применении.
Галлюцинации — главная болезнь современных LLM в корпоративном контексте. И OPCD атакует одну из их системных причин. Это не серебряная пуля, но это честный, воспроизводимый прогресс. Ждём, когда метод появится в Azure AI Studio — и ждём недолго.