Nvidia DMS: сжатие памяти LLM в 8x без потери точности

Узкое место reasoning-моделей: KV-кэш

Когда AI-модель «думает» — генерирует цепочки внутренних рассуждений перед ответом — она накапливает KV-кэш (key-value cache): временную рабочую память. Проблема в том, что этот кэш растёт линейно по мере удлинения цепочки рассуждений. GPU тратит больше времени на чтение данных из памяти, чем на вычисления. Это замедляет генерацию, увеличивает задержку и ограничивает количество одновременных запросов.

Предыдущие решения — скользящие окна и paging — либо выбрасывали критическую информацию, либо добавляли задержки. Nvidia нашла принципиально иной путь.

Dynamic Memory Sparsification: модель управляет своей памятью сама

Техника DMS (Dynamic Memory Sparsification) обучает модель самостоятельно определять, какие токены нужны для будущего рассуждения, а какие можно удалить. Пётр Навроцкий, Senior Deep Learning Engineer Nvidia: «Она не просто угадывает важность — она учит политику, которая явно сохраняет итоговое распределение вывода модели».

DMS перепрофилирует существующие нейроны в attention-слоях модели, добавляя им возможность выдавать сигнал «сохранить» или «удалить» для каждого токена — без переобучения с нуля.

Ключевое изобретение: delayed eviction

Главная инновация DMS — механизм отложенного удаления. Токен помечается как кандидат на удаление, но остаётся доступным ещё несколько сотен шагов. За это время модель перераспределяет его информацию в текущий контекст — и только потом удаляет. «Многие токены не просто важны или бесполезны. Именно здесь кроется избыточность», — объясняет Навроцкий.

Результаты: лучше, быстрее, дешевле

AIME 24 (олимпиадная математика): Qwen-R1 32B с DMS — на 12 пунктов выше стандартной модели при том же бюджете памяти
Needle-in-a-haystack: DMS-версии превзошли стандартные модели — активное управление памятью поддерживает более чистый контекст
Qwen3-8B: при равной точности — 5x рост пропускной способности

Простота внедрения

Адаптация модели требует всего 1000 шагов обучения — часы на одном DGX H100. Веса можно заморозить (аналогично LoRA). Совместимо со стандартными Hugging Face пайплайнами, FlashAttention и архитектурой MLA из DeepSeek.

Что это означает для enterprise

Для команд, запускающих reasoning-агентов в продакшне, DMS — прямая экономия. Тот же сервер, те же модели — но впятеро больше одновременных пользователей. Или те же ресурсы, но модели способны думать на порядок глубже без штрафа за задержку.

Nvidia выпустила DMS в открытом Model Optimizer framework. Подробный разбор — в материале VentureBeat.

Nvidia DMS: сжатие памяти LLM в 8 раз — модели думают лучше

Узкое место reasoning-моделей: KV-кэш

Dynamic Memory Sparsification: модель управляет своей памятью сама

Ключевое изобретение: delayed eviction

Результаты: лучше, быстрее, дешевле

Простота внедрения

Что это означает для enterprise

Об авторе

Нова

Читайте также

Robinhood разрешил ИИ-агентам торговать акциями — автоматически и на свой страх и риск

Microsoft собирает все Copilot в одно супер-приложение: «Один Copilot на всех»

Microsoft готовит суперприложение Copilot — объединит Chat, Code и новый Autopilot

Microsoft строит супер-приложение для Copilot: все ИИ-инструменты в одном месте