ИИ-модель HRM-Text: обучение с нуля за $1 500

Обучить ИИ-модель с нуля за $1 500? Это больше не фантастика

Индустрия искусственного интеллекта годами придерживалась одного подхода: чем больше модель, тем лучше. Google, Meta, OpenAI соревновались в гонке масштаба — терабайты данных, тысячи GPU, бюджеты в сотни миллионов долларов. Обычная компания могла лишь мечтать о собственной фундаментальной модели.

Исследователи из компании Sap Intelligence предложили альтернативу. Они разработали HRM-Text — модель на 1 миллиард параметров, обученную с нуля за 1.9 дня на кластере из 16 GPU. Общая стоимость обучения — $1 500 (примерно 135 000 ₽ по текущему курсу). И на бенчмарках она показывает результаты, сравнимые с моделями в 2-7 раз больше.

Как это работает: не ещё один трансформер

Ключевое отличие — в архитектуре. Стандартные LLM используют механизм предсказания следующего токена (next-token prediction) и обучаются на сырых текстах из интернета по сути запоминая всё подряд. HRM-Text использует иерархическую рекуррентную модель (Hierarchical Recurrent Model), которая разделяет вычисления на два уровня:

Fast L-module — быстрая локальная доработка, как «оперативная память» модели
Slow H-module — медленный стратегический слой, поддерживающий контекст и логику

Вместо того чтобы учить модель угадывать следующее слово в произвольном тексте, HRM-Text обучается исключительно на парах «инструкция-ответ». То есть модель сразу учится решать задачи так, как люди реально ожидают. В тренировочных данных убрали все токены «thinking» — модель учится думать, но не копирует пошаговые рассуждения из данных.

Результаты benchmarks

1B-параметрическая HRM-Text показала впечатляющие результаты на стандартных бенчмарках:

MMLU (знание и понимание): 60.7%
GSM8K (школа математика): 84.5%
MATH (сложная математика): 56.2%

Эти показатели сопоставимы или превышают модели на 2-7 миллиардов параметров. При этом HRM-Text использовала в 100-900 раз меньше обучающих токенов и в 96-432 раз меньше вычислительных ресурсов, чем аналоги вроде Qwen, Gemma и Llama.

Почему это важно для бизнеса

CEO Sapient Guan Wang ставит вопрос ребром: «Когда стоимость обучения способной reasoning-модели падает до $1 500, ИИ перестаёт быть лишь инфраструктурным вопросом и становится стратегическим».

Представьте: банк с проприетарными данными, комплаенс-правилами и внутренними моделями рисков больше не обязан отправлять данные в API OpenAI. Компактная HRM-подобная модель работает как «reasoning core» подключается к внешней базе знаний через retrieval систему и решает специфические бизнес-задачи локально. Без вендор-локина. Без риска утечки данных. За стоимость аренды сервера на пару дней.

Личное мнение

Я давно замечаю, что вся ИИ-индустрия зациклилась на масштабировании: «модель ошибается? Добавь параметры, добавь больше GPU, добавь больше данных». Это работает, но уже виден потолок diminishing returns. HRM-Text показывает, что архитектурные инновации могут дать больше, чем сырой масштаб. Модель на $1 500 против моделей на миллионы — и comparable результаты. Это как если бы маленький производитель автомобилей собрал машину быстрее и экономичнее суперкара, просто потому что пересмотрел конструкцию двигателя.

Разумеется, текущая версия — это proof-of-concept, не замена ChatGPT. Но направление задано верно. Следующие годы будут интереснее: эффективные архитектуры, специализированные модели для конкретных задач, демократизация ИИ-инфраструктуры.

Вывод

HRM-Text — это сигнал. Эпоха «только больше данных и GPU» подходит к концу. Начинается эпоха «лучших алгоритмов и умных архитектур». И это открывает двери для компаний, которые раньше могли лишь использовать готовые модели. Теперь можно строить свои. На своём железе. За вменяемый бюджет.

Фундаментальную ИИ-модель за $1 500 (135 000 ₽) обучили с нуля — и она бросает вызов гигантам

Обучить ИИ-модель с нуля за $1 500? Это больше не фантастика

Как это работает: не ещё один трансформер

Результаты benchmarks

Почему это важно для бизнеса

Личное мнение

Вывод

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась