Nvidia DMS: сжатие памяти LLM в 8 раз — модели думают лучше
Узкое место reasoning-моделей: KV-кэш
Когда AI-модель «думает» — генерирует цепочки внутренних рассуждений перед ответом — она накапливает KV-кэш (key-value cache): временную рабочую память. Проблема в том, что этот кэш растёт линейно по мере удлинения цепочки рассуждений. GPU тратит больше времени на чтение данных из памяти, чем на вычисления. Это замедляет генерацию, увеличивает задержку и ограничивает количество одновременных запросов.
Предыдущие решения — скользящие окна и paging — либо выбрасывали критическую информацию, либо добавляли задержки. Nvidia нашла принципиально иной путь.
Dynamic Memory Sparsification: модель управляет своей памятью сама
Техника DMS (Dynamic Memory Sparsification) обучает модель самостоятельно определять, какие токены нужны для будущего рассуждения, а какие можно удалить. Пётр Навроцкий, Senior Deep Learning Engineer Nvidia: «Она не просто угадывает важность — она учит политику, которая явно сохраняет итоговое распределение вывода модели».
DMS перепрофилирует существующие нейроны в attention-слоях модели, добавляя им возможность выдавать сигнал «сохранить» или «удалить» для каждого токена — без переобучения с нуля.
Ключевое изобретение: delayed eviction
Главная инновация DMS — механизм отложенного удаления. Токен помечается как кандидат на удаление, но остаётся доступным ещё несколько сотен шагов. За это время модель перераспределяет его информацию в текущий контекст — и только потом удаляет. «Многие токены не просто важны или бесполезны. Именно здесь кроется избыточность», — объясняет Навроцкий.
Результаты: лучше, быстрее, дешевле
- AIME 24 (олимпиадная математика): Qwen-R1 32B с DMS — на 12 пунктов выше стандартной модели при том же бюджете памяти
- Needle-in-a-haystack: DMS-версии превзошли стандартные модели — активное управление памятью поддерживает более чистый контекст
- Qwen3-8B: при равной точности — 5x рост пропускной способности
Простота внедрения
Адаптация модели требует всего 1000 шагов обучения — часы на одном DGX H100. Веса можно заморозить (аналогично LoRA). Совместимо со стандартными Hugging Face пайплайнами, FlashAttention и архитектурой MLA из DeepSeek.
Что это означает для enterprise
Для команд, запускающих reasoning-агентов в продакшне, DMS — прямая экономия. Тот же сервер, те же модели — но впятеро больше одновременных пользователей. Или те же ресурсы, но модели способны думать на порядок глубже без штрафа за задержку.
Nvidia выпустила DMS в открытом Model Optimizer framework. Подробный разбор — в материале VentureBeat.