ИИ-модель за $1 500: Sapient обучила foundation LLM с нуля

Обучение ИИ с нуля за полтора штуки — это реально

Долгие годы аксиома индустрии звучала одинаково: хочешь обучить foundation-модель — приготовь миллионы долларов, кластер из сотен GPU и интернет-sized датасет. Это был барьер, за которым стояли лишь Google, OpenAI, Meta и пара-тройка китайских гигантов.

Стартап Sapient Intelligence эту аксиому поставил под сомнение. Они обучили 1-миллиардную модель HRM-Text с нуля за ~$1 500 — это в 96–432 раза дешевле, чем аналогичное обучение Qwen, Gemma или Llama. И при этом результаты на бенчмарках сравнимы с моделями в 2–7 раз больше.

Что за архитектура такая — HRM

Вместо стандартного трансформера Sapient использует Hierarchical Recurrent Model (HRM) — архитектуру, которую они впервые представили в прошлом году. Главная идея: разделение вычислений на два уровня:

H-module (медленный) — хранит стабильный семантический контекст, отвечает за «стратегию»
L-module (быстрый) — выполняет локальную итеративную обработку, отвечает за «исполнение»

Каждый цикл обработки включает три быстрых обновления L-модуля и одно медленное обновление H-модуля. Это не просто архитектурный выбор — математически доказано, что разделение необходимо для стабильности. Без него при масштабировании до миллиарда параметров рекуррентные модели просто «взрываются» из-за exploding gradients.

Для стабилизации добавили две вещи: MagicNorm (уникальная нормализация для рекуррентных петель) и метод «warm-up» — модель начинают тренировать на коротких задачах и постепенно наращивают глубину рассуждений.

Обучение только на instruction-response парах

Это, пожалуй, самый провокационный аспект HRM-Text. Модель обучалась не на сыром тексте интернета, а исключительно на 40 миллиардах instruction-response пар. Это примерно в 100–900 раз меньше токенов, чем у традиционных моделей.

Кроме того, из данных намеренно убрали «chain-of-thought» токены. Модель не может списать ход рассуждений — она должна самостоятельно выработать внутреннюю иерархическую логику. Вместо задачи «предскажи следующий токен» стоит задача «выполни задание целиком».

Критики скажут — это «яблоки с яблочными огрызками», ведь трансформеры тренировали на сырых данных. CEO Sapient Гуан Ван парирует: каждый серьёзный современный LLM в конце пути видит instruction-response данные. Sapient просто начали с них сразу.

Результаты на бенчмарках

1B HRM-Text показал такие результаты после обучения с нуля:

MMLU (общие знания): 60.7%
GSM8K (школьная математика): 84.5%
MATH (олимпиадная математика): 56.2%

Для сравнения: это уровень или лучше foundation-моделей размером 2B–7B. Всё за 1.9 дня на кластере из 16 GPU.

Почему это важно?

Тут два ключевых следствия. Первое: рассуждение и запоминание — это разные вещи. HRM-Text доказал, что для «умной» модели не обязательно заучивать весь интернет. Можно взять компактный reasoning-движок и подключить к нему внешнюю базу знаний. Для предприятий это мечта — маленькая быстрая модель, которая знает правила вашей компании и может рассуждать на их основе.

Второе: демократизация. Когда стоимость обучения рассуждающей модели падает до полутора тысяч долларов, это перестаёт быть инфраструктурным вопросом и становится стратегическим. Каждая компания может задуматься о своей собственной foundation-модели.

Личное мнение

HRM-Text — это пока proof-of-concept, и до ChatGPT ей далеко. Но направление движения кажется мне верным. Индустрия годами упиралась в «сделай модель больше, больше данных, больше GPU» — и вот мы видим реальный потолок отдачи от масштабирования. Sapient пошли другим путём: сменили архитектуру, а не масштаб. Это как изобрести дизель, вместо того чтобы строить всё больший паровой котёл.

Конечно, рекуррентные модели — это не панацея. У них свои ограничения: сложность с длинными контекстами, проблемы с KV-cache в многоходовых диалогах. Но как reasoning-ядро для корпоративных задач (финансовая логика, compliance, обработка структурированных данных) — это уже сегодня может быть интересно. А если HRM-модели появятся на stiva.ai — будет ещё интереснее.

Основательная ИИ-модель за $1 500: зачем стартапу Sapient понадобилась новая архитектура

Обучение ИИ с нуля за полтора штуки — это реально

Что за архитектура такая — HRM

Обучение только на instruction-response парах

Результаты на бенчмарках

Почему это важно?

Личное мнение

Об авторе

Нова

Читайте также

Anthropic починила Claude Design: импорты дизайн-систем, связь с кодом и фикс токенов

Adobe встроила ИИ-агентов во весь Creative Cloud — и убила генерацию ради оркестрации

Adobe превратила Creative Cloud в оркестр ИИ-агентов: генерация уходит на второй план

Новый ИИ-фреймворк обходит Claude Code и Codex в 2,5 раза на том же бюджете