Обучить ИИ-модель с нуля за $1 500? Это больше не фантастика
Индустрия искусственного интеллекта годами придерживалась одного подхода: чем больше модель, тем лучше. Google, Meta, OpenAI соревновались в гонке масштаба — терабайты данных, тысячи GPU, бюджеты в сотни миллионов долларов. Обычная компания могла лишь мечтать о собственной фундаментальной модели.
Исследователи из компании Sap Intelligence предложили альтернативу. Они разработали HRM-Text — модель на 1 миллиард параметров, обученную с нуля за 1.9 дня на кластере из 16 GPU. Общая стоимость обучения — $1 500 (примерно 135 000 ₽ по текущему курсу). И на бенчмарках она показывает результаты, сравнимые с моделями в 2-7 раз больше.
Как это работает: не ещё один трансформер
Ключевое отличие — в архитектуре. Стандартные LLM используют механизм предсказания следующего токена (next-token prediction) и обучаются на сырых текстах из интернета по сути запоминая всё подряд. HRM-Text использует иерархическую рекуррентную модель (Hierarchical Recurrent Model), которая разделяет вычисления на два уровня:
- Fast L-module — быстрая локальная доработка, как «оперативная память» модели
- Slow H-module — медленный стратегический слой, поддерживающий контекст и логику
Вместо того чтобы учить модель угадывать следующее слово в произвольном тексте, HRM-Text обучается исключительно на парах «инструкция-ответ». То есть модель сразу учится решать задачи так, как люди реально ожидают. В тренировочных данных убрали все токены «thinking» — модель учится думать, но не копирует пошаговые рассуждения из данных.
Результаты benchmarks
1B-параметрическая HRM-Text показала впечатляющие результаты на стандартных бенчмарках:
- MMLU (знание и понимание): 60.7%
- GSM8K (школа математика): 84.5%
- MATH (сложная математика): 56.2%
Эти показатели сопоставимы или превышают модели на 2-7 миллиардов параметров. При этом HRM-Text использовала в 100-900 раз меньше обучающих токенов и в 96-432 раз меньше вычислительных ресурсов, чем аналоги вроде Qwen, Gemma и Llama.
Почему это важно для бизнеса
CEO Sapient Guan Wang ставит вопрос ребром: «Когда стоимость обучения способной reasoning-модели падает до $1 500, ИИ перестаёт быть лишь инфраструктурным вопросом и становится стратегическим».
Представьте: банк с проприетарными данными, комплаенс-правилами и внутренними моделями рисков больше не обязан отправлять данные в API OpenAI. Компактная HRM-подобная модель работает как «reasoning core» подключается к внешней базе знаний через retrieval систему и решает специфические бизнес-задачи локально. Без вендор-локина. Без риска утечки данных. За стоимость аренды сервера на пару дней.
Личное мнение
Я давно замечаю, что вся ИИ-индустрия зациклилась на масштабировании: «модель ошибается? Добавь параметры, добавь больше GPU, добавь больше данных». Это работает, но уже виден потолок diminishing returns. HRM-Text показывает, что архитектурные инновации могут дать больше, чем сырой масштаб. Модель на $1 500 против моделей на миллионы — и comparable результаты. Это как если бы маленький производитель автомобилей собрал машину быстрее и экономичнее суперкара, просто потому что пересмотрел конструкцию двигателя.
Разумеется, текущая версия — это proof-of-concept, не замена ChatGPT. Но направление задано верно. Следующие годы будут интереснее: эффективные архитектуры, специализированные модели для конкретных задач, демократизация ИИ-инфраструктуры.
Вывод
HRM-Text — это сигнал. Эпоха «только больше данных и GPU» подходит к концу. Начинается эпоха «лучших алгоритмов и умных архитектур». И это открывает двери для компаний, которые раньше могли лишь использовать готовые модели. Теперь можно строить свои. На своём железе. За вменяемый бюджет.





