Обучение ИИ с нуля за полтора штуки — это реально
Долгие годы аксиома индустрии звучала одинаково: хочешь обучить foundation-модель — приготовь миллионы долларов, кластер из сотен GPU и интернет-sized датасет. Это был барьер, за которым стояли лишь Google, OpenAI, Meta и пара-тройка китайских гигантов.
Стартап Sapient Intelligence эту аксиому поставил под сомнение. Они обучили 1-миллиардную модель HRM-Text с нуля за ~$1 500 — это в 96–432 раза дешевле, чем аналогичное обучение Qwen, Gemma или Llama. И при этом результаты на бенчмарках сравнимы с моделями в 2–7 раз больше.
Что за архитектура такая — HRM
Вместо стандартного трансформера Sapient использует Hierarchical Recurrent Model (HRM) — архитектуру, которую они впервые представили в прошлом году. Главная идея: разделение вычислений на два уровня:
- H-module (медленный) — хранит стабильный семантический контекст, отвечает за «стратегию»
- L-module (быстрый) — выполняет локальную итеративную обработку, отвечает за «исполнение»
Каждый цикл обработки включает три быстрых обновления L-модуля и одно медленное обновление H-модуля. Это не просто архитектурный выбор — математически доказано, что разделение необходимо для стабильности. Без него при масштабировании до миллиарда параметров рекуррентные модели просто «взрываются» из-за exploding gradients.
Для стабилизации добавили две вещи: MagicNorm (уникальная нормализация для рекуррентных петель) и метод «warm-up» — модель начинают тренировать на коротких задачах и постепенно наращивают глубину рассуждений.
Обучение только на instruction-response парах
Это, пожалуй, самый провокационный аспект HRM-Text. Модель обучалась не на сыром тексте интернета, а исключительно на 40 миллиардах instruction-response пар. Это примерно в 100–900 раз меньше токенов, чем у традиционных моделей.
Кроме того, из данных намеренно убрали «chain-of-thought» токены. Модель не может списать ход рассуждений — она должна самостоятельно выработать внутреннюю иерархическую логику. Вместо задачи «предскажи следующий токен» стоит задача «выполни задание целиком».
Критики скажут — это «яблоки с яблочными огрызками», ведь трансформеры тренировали на сырых данных. CEO Sapient Гуан Ван парирует: каждый серьёзный современный LLM в конце пути видит instruction-response данные. Sapient просто начали с них сразу.
Результаты на бенчмарках
1B HRM-Text показал такие результаты после обучения с нуля:
- MMLU (общие знания): 60.7%
- GSM8K (школьная математика): 84.5%
- MATH (олимпиадная математика): 56.2%
Для сравнения: это уровень или лучше foundation-моделей размером 2B–7B. Всё за 1.9 дня на кластере из 16 GPU.
Почему это важно?
Тут два ключевых следствия. Первое: рассуждение и запоминание — это разные вещи. HRM-Text доказал, что для «умной» модели не обязательно заучивать весь интернет. Можно взять компактный reasoning-движок и подключить к нему внешнюю базу знаний. Для предприятий это мечта — маленькая быстрая модель, которая знает правила вашей компании и может рассуждать на их основе.
Второе: демократизация. Когда стоимость обучения рассуждающей модели падает до полутора тысяч долларов, это перестаёт быть инфраструктурным вопросом и становится стратегическим. Каждая компания может задуматься о своей собственной foundation-модели.
Личное мнение
HRM-Text — это пока proof-of-concept, и до ChatGPT ей далеко. Но направление движения кажется мне верным. Индустрия годами упиралась в «сделай модель больше, больше данных, больше GPU» — и вот мы видим реальный потолок отдачи от масштабирования. Sapient пошли другим путём: сменили архитектуру, а не масштаб. Это как изобрести дизель, вместо того чтобы строить всё больший паровой котёл.
Конечно, рекуррентные модели — это не панацея. У них свои ограничения: сложность с длинными контекстами, проблемы с KV-cache в многоходовых диалогах. Но как reasoning-ядро для корпоративных задач (финансовая логика, compliance, обработка структурированных данных) — это уже сегодня может быть интересно. А если HRM-модели появятся на stiva.ai — будет ещё интереснее.





