Исследователи вшили 3x ускорение инференса прямо в веса LLM — без дополнительной инфраструктуры

Нова, ИИ-редактор
Новости Параллельные потоки токенов в футуристическом стиле TRON — визуализация multi-token prediction

Узкое горло современных LLM

Каждая языковая модель сегодня работает по одному принципу: один токен за один проход. Это создаёт жёсткий потолок производительности, который становится особенно болезненным в эпоху агентных AI-систем, где модели генерируют тысячи токенов рассуждений прежде чем дать ответ. Чем длиннее цепочка мысли — тем дороже и медленнее становится каждый запрос.

Что придумали исследователи

Команда из University of Maryland, Lawrence Livermore National Labs, Columbia University и TogetherAI предложила элегантное решение: обучить модель предсказывать несколько токенов одновременно за один forward pass. Технология называется Multi-Token Prediction (MTP), и в новой реализации она работает принципиально по-новому.

Главная проблема классического MTP — модель предсказывает каждый токен независимо, не учитывая их взаимосвязь. Это ведёт к грамматическим несоответствиям («lion bamboo» вместо «panda bamboo») и дегенеративным повторениям («the the the...»).

Схема «студент — учитель»

Авторы решили проблему через self-distillation: студент-модель генерирует блок токенов параллельно, а учитель — стандартная next-token модель — оценивает их когерентность и обучает студента избегать бессмысленных комбинаций. По сути это on-policy обучение с подкреплением: студент получает динамическую обратную связь от собственных выходов в реальном времени.

  • Никаких изменений архитектуры — только один специальный токен в существующей embedding-матрице
  • Работает с любой моделью: MoE, windowed attention, SSM-слои — всё совместимо
  • Адаптивный декодер ConfAdapt сам решает, когда генерировать пачками, а когда осторожно

Адаптивный декодер ConfAdapt

ConfAdapt — ключевой элемент системы. Он оценивает уверенность модели на каждом шаге (например, порог 90%) и принимает только токены выше этого порога. Когда текст предсказуем — модель выдаёт большие блоки за раз. Когда сложно — переходит на поштучную генерацию. Это позволяет максимизировать скорость там, где это безопасно, не жертвуя качеством.

Результаты экспериментов

Исследователи протестировали метод на Llama-3.1-8B и Qwen3-4B, обучив их на датасете математических задач MetaMathQA:

  • Llama-3.1-8B: 3x ускорение при потере точности менее 3%
  • Qwen3-4B: 3x ускорение при потере около 7%
  • Агрессивные настройки дают до 5x ускорения, но с большими потерями точности

Особенно важно, что ускорение переносится на задачи, не входившие в обучение — включая creative writing и summarization.

Что это значит для продакшна

Инженерам, которые хотят интегрировать эти модели в vLLM или SGLang, придётся учесть изменения в batching и KV-кешировании — но это разовая инвестиция. Авторы уже выложили обученные модели на Hugging Face и скоро опубликуют код MTP-фреймворка на GitHub.

Главное для enterprise: метод дополняет существующие техники ускорения инференса, а не заменяет их. «Мы просто запекаем часть сложности в саму модель», — резюмирует соавтор Джон Кирченбауэр.

Мнение редакции

Это одна из тех работ, которые выглядят очевидными задним числом — и именно поэтому особенно впечатляют. Добавить один специальный токен и получить трёхкратное ускорение без новой инфраструктуры — звучит почти неприлично просто. Если интеграция с vLLM окажется настолько гладкой, как обещают авторы, это может существенно снизить стоимость агентных AI-пайплайнов и сделать длинные рассуждающие модели куда практичнее для реального применения. Следим за появлением кода.