STIVA

Основательная ИИ-модель за $1 500: зачем стартапу Sapient понадобилась новая архитектура

Sapient Intelligence обучила 1B-модель с нуля за $1 500 — в сотни раз дешевле аналогов.

0 просмотров~3 мин чтения
Схематическая визуализация иерархической рекуррентной модели HRM с двумя уровнями вычислений, неоновая киберпанк эстетика
Схематическая визуализация иерархической рекуррентной модели HRM с двумя уровнями вычислений, неоновая киберпанк эстетика

Обучение ИИ с нуля за полтора штуки — это реально

Долгие годы аксиома индустрии звучала одинаково: хочешь обучить foundation-модель — приготовь миллионы долларов, кластер из сотен GPU и интернет-sized датасет. Это был барьер, за которым стояли лишь Google, OpenAI, Meta и пара-тройка китайских гигантов.

Стартап Sapient Intelligence эту аксиому поставил под сомнение. Они обучили 1-миллиардную модель HRM-Text с нуля за ~$1 500 — это в 96–432 раза дешевле, чем аналогичное обучение Qwen, Gemma или Llama. И при этом результаты на бенчмарках сравнимы с моделями в 2–7 раз больше.

Что за архитектура такая — HRM

Вместо стандартного трансформера Sapient использует Hierarchical Recurrent Model (HRM) — архитектуру, которую они впервые представили в прошлом году. Главная идея: разделение вычислений на два уровня:

  • H-module (медленный) — хранит стабильный семантический контекст, отвечает за «стратегию»
  • L-module (быстрый) — выполняет локальную итеративную обработку, отвечает за «исполнение»

Каждый цикл обработки включает три быстрых обновления L-модуля и одно медленное обновление H-модуля. Это не просто архитектурный выбор — математически доказано, что разделение необходимо для стабильности. Без него при масштабировании до миллиарда параметров рекуррентные модели просто «взрываются» из-за exploding gradients.

Для стабилизации добавили две вещи: MagicNorm (уникальная нормализация для рекуррентных петель) и метод «warm-up» — модель начинают тренировать на коротких задачах и постепенно наращивают глубину рассуждений.

Обучение только на instruction-response парах

Это, пожалуй, самый провокационный аспект HRM-Text. Модель обучалась не на сыром тексте интернета, а исключительно на 40 миллиардах instruction-response пар. Это примерно в 100–900 раз меньше токенов, чем у традиционных моделей.

Кроме того, из данных намеренно убрали «chain-of-thought» токены. Модель не может списать ход рассуждений — она должна самостоятельно выработать внутреннюю иерархическую логику. Вместо задачи «предскажи следующий токен» стоит задача «выполни задание целиком».

Критики скажут — это «яблоки с яблочными огрызками», ведь трансформеры тренировали на сырых данных. CEO Sapient Гуан Ван парирует: каждый серьёзный современный LLM в конце пути видит instruction-response данные. Sapient просто начали с них сразу.

Результаты на бенчмарках

1B HRM-Text показал такие результаты после обучения с нуля:

  • MMLU (общие знания): 60.7%
  • GSM8K (школьная математика): 84.5%
  • MATH (олимпиадная математика): 56.2%

Для сравнения: это уровень или лучше foundation-моделей размером 2B–7B. Всё за 1.9 дня на кластере из 16 GPU.

Почему это важно?

Тут два ключевых следствия. Первое: рассуждение и запоминание — это разные вещи. HRM-Text доказал, что для «умной» модели не обязательно заучивать весь интернет. Можно взять компактный reasoning-движок и подключить к нему внешнюю базу знаний. Для предприятий это мечта — маленькая быстрая модель, которая знает правила вашей компании и может рассуждать на их основе.

Второе: демократизация. Когда стоимость обучения рассуждающей модели падает до полутора тысяч долларов, это перестаёт быть инфраструктурным вопросом и становится стратегическим. Каждая компания может задуматься о своей собственной foundation-модели.

Личное мнение

HRM-Text — это пока proof-of-concept, и до ChatGPT ей далеко. Но направление движения кажется мне верным. Индустрия годами упиралась в «сделай модель больше, больше данных, больше GPU» — и вот мы видим реальный потолок отдачи от масштабирования. Sapient пошли другим путём: сменили архитектуру, а не масштаб. Это как изобрести дизель, вместо того чтобы строить всё больший паровой котёл.

Конечно, рекуррентные модели — это не панацея. У них свои ограничения: сложность с длинными контекстами, проблемы с KV-cache в многоходовых диалогах. Но как reasoning-ядро для корпоративных задач (финансовая логика, compliance, обработка структурированных данных) — это уже сегодня может быть интересно. А если HRM-модели появятся на stiva.ai — будет ещё интереснее.

Читайте также