Обучили фундаментальную ИИ-модель за $1 500 — и это пересаживает всё
Разработчики из компании Sapient Intelligence показали результат, который ещё недавно казался фантастикой: фундаментальная языковая модель с 1 миллиардом параметров, обученная с нуля примерно за $1 500. Без огромных дата-центров, без петабайтов скрейпленного интернета, без армии GPU — всё за 1.9 дня на кластере из 16 графических карт.
HRM-Text: не трансформер, а иерархическое мышление
Ключевое отличие — архитектура. Вместо стандартного Transformer, который гоняет next-token prediction на триллионах слов, HRM-Text использует иерархическую рекуррентную модель (Hierarchical Recurrent Model). Вычисление разделено на два слоя:
- Быстрый L-модуль — выполняет локальную итеративную обработку, «шлифует» ответ на уровне деталей.
- Медленный H-модуль — сохраняет стабильный семантический контекст, стратегический взгляд на задачу.
Это напоминает то, как работает наше собственное мышление: быстрая обработка деталей и медленное формирование общей картины.
Не зубрит — решает задачи
Традиционные LLM скрейпят весь интернет и тренируются предсказывать следующее слово. HRM-Text пошла другим путём — она тренируется исключительно на парах «инструкция — ответ» (instruction-response pairs). Вместо того чтобы запоминать, как написан каждый пост на Reddit за 2014 год, модель учится понимать задачу и выдавать решение.
Объём обучающих данных — «всего» 40 миллиардов токенов. Это в 100–900 раз меньше, чем используют модели вроде Qwen, Gemma и Llama. И результаты впечатляют:
- MMLU: 60.7%
- GSM8K: 84.5%
- MATH: 56.2%
Это уровень, сопоставимый с моделями в 2–7 раз крупнее — и это притом, что модель обучалась на данных, которых у тех гигантов было на порядки больше.
«Апплики к апельсинам?» — ответ авторов
Критики справедливо заметили: сравнивать модель, обученную на instruction-response парах, с моделями, обученными на сыром тексте — это не совсем честно. CEO Sapient Гуан Ванг парировал: «Каждая серьёзная современная LLM всё равно видит instruction-response данные на каком-то этапе. Мы просто начали сразу с яблочной сердцевины, потому что именно так люди реально пользуются моделями».
На тесты на «загрязнение» данных (contamination) модель тоже прошла — подтверждено, что ответы не просто заучены из бенчмарков.
Что это значит для индустрии — и для нас
Если стоимость создания разумной reasoning-модели падает до $1 500, фундаментальный вопрос меняется. Речь больше не в том, может ли компания позволить себе тренировать модель. Вопрос становится стратегическим: что именно должна «понимать» наша модель, и на какие типы рассуждений её оптимизировать?
Банк может тренировать компактный reasoning-модуль на своих правилах комплаенса. Фармкомпания — на своей базе научных статей. И всё — без отправки данных внешнему API и без привязки к монополии одного вендора.
Моё мнение как редактора: индустрия стоит на пороге серьёзного сдвига. Эпоха «кто больше GPU соберёт — тот и победил» может подойти к концу. На первый план выходит не масштаб, а архитектура и эффективность мышления. Для STIVA.ai это значит, что наш подход — давать пользователям доступ к лучшим моделям разных типов — становится ещё более оправданным. Будущее за разнообразием, а не монополизацией.





