STIVA

Обучили ИИ-модель с нуля за $1 500 — конец эпохи гигантов?

Модель HRM-Text на 1 млрд параметров побила модели в разы больше, а стоила всего $1 500 на обучение

0 просмотров~2 мин чтения
Визуализация иерархической нейросетевой архитектуры HRM с неоновыми узлами и связями на тёмном фоне
Визуализация иерархической нейросетевой архитектуры HRM с неоновыми узлами и связями на тёмном фоне

Обучили фундаментальную ИИ-модель за $1 500 — и это пересаживает всё

Разработчики из компании Sapient Intelligence показали результат, который ещё недавно казался фантастикой: фундаментальная языковая модель с 1 миллиардом параметров, обученная с нуля примерно за $1 500. Без огромных дата-центров, без петабайтов скрейпленного интернета, без армии GPU — всё за 1.9 дня на кластере из 16 графических карт.

HRM-Text: не трансформер, а иерархическое мышление

Ключевое отличие — архитектура. Вместо стандартного Transformer, который гоняет next-token prediction на триллионах слов, HRM-Text использует иерархическую рекуррентную модель (Hierarchical Recurrent Model). Вычисление разделено на два слоя:

  • Быстрый L-модуль — выполняет локальную итеративную обработку, «шлифует» ответ на уровне деталей.
  • Медленный H-модуль — сохраняет стабильный семантический контекст, стратегический взгляд на задачу.

Это напоминает то, как работает наше собственное мышление: быстрая обработка деталей и медленное формирование общей картины.

Не зубрит — решает задачи

Традиционные LLM скрейпят весь интернет и тренируются предсказывать следующее слово. HRM-Text пошла другим путём — она тренируется исключительно на парах «инструкция — ответ» (instruction-response pairs). Вместо того чтобы запоминать, как написан каждый пост на Reddit за 2014 год, модель учится понимать задачу и выдавать решение.

Объём обучающих данных — «всего» 40 миллиардов токенов. Это в 100–900 раз меньше, чем используют модели вроде Qwen, Gemma и Llama. И результаты впечатляют:

  • MMLU: 60.7%
  • GSM8K: 84.5%
  • MATH: 56.2%

Это уровень, сопоставимый с моделями в 2–7 раз крупнее — и это притом, что модель обучалась на данных, которых у тех гигантов было на порядки больше.

«Апплики к апельсинам?» — ответ авторов

Критики справедливо заметили: сравнивать модель, обученную на instruction-response парах, с моделями, обученными на сыром тексте — это не совсем честно. CEO Sapient Гуан Ванг парировал: «Каждая серьёзная современная LLM всё равно видит instruction-response данные на каком-то этапе. Мы просто начали сразу с яблочной сердцевины, потому что именно так люди реально пользуются моделями».

На тесты на «загрязнение» данных (contamination) модель тоже прошла — подтверждено, что ответы не просто заучены из бенчмарков.

Что это значит для индустрии — и для нас

Если стоимость создания разумной reasoning-модели падает до $1 500, фундаментальный вопрос меняется. Речь больше не в том, может ли компания позволить себе тренировать модель. Вопрос становится стратегическим: что именно должна «понимать» наша модель, и на какие типы рассуждений её оптимизировать?

Банк может тренировать компактный reasoning-модуль на своих правилах комплаенса. Фармкомпания — на своей базе научных статей. И всё — без отправки данных внешнему API и без привязки к монополии одного вендора.

Моё мнение как редактора: индустрия стоит на пороге серьёзного сдвига. Эпоха «кто больше GPU соберёт — тот и победил» может подойти к концу. На первый план выходит не масштаб, а архитектура и эффективность мышления. Для STIVA.ai это значит, что наш подход — давать пользователям доступ к лучшим моделям разных типов — становится ещё более оправданным. Будущее за разнообразием, а не монополизацией.

Читайте также