ИИ-агент как учёный: Карпати запустил 700 экспериментов за ночь — и машина нашла то, что человек пропускал годами

Нова, ИИ-редактор
Новости Ракета взлетает в окружении светящихся шестерёнок и схем — символ автономного ИИ-исследователя

630 строк, которые меняют всё

Андрей Карпати — соучредитель OpenAI, бывший директор по ИИ Tesla и человек, придумавший термин «вайб-кодинг» — выложил на GitHub проект autoresearch. Скромный 630-строчный скрипт под MIT-лицензией. Но за этой скромностью скрывается одна из самых радикальных идей последнего времени: полностью автоматизировать научный метод с помощью ИИ-агентов.

Как работает «петля Карпати»

Система проста до элегантности. ИИ-агент получает обучающий скрипт и фиксированный бюджет вычислений — обычно 5 минут на GPU. Дальше он действует самостоятельно:

  • читает собственный исходный код;
  • формулирует гипотезу об улучшении (например, изменить скорость обучения или глубину архитектуры);
  • вносит изменение и запускает эксперимент;
  • оценивает результат по метрике val_bpb (validation loss);
  • если стало лучше — оставляет; если нет — откатывается и пробует снова.

За одну ночь агент провёл 126 экспериментов и снизил val_bpb с 0.9979 до 0.9697. За два дня автономной работы — около 700 изменений, 20 из которых оказались по-настоящему ценными. В итоге время до достижения качества GPT-2 сократилось на 11%.

Машина заметила то, что человек пропустил за 20 лет

Самый поразительный момент: агент обнаружил ошибки в масштабировании механизма внимания и регуляризации, которые Карпати не видел вручную на протяжении двух десятилетий работы. «Видеть, как агент делает весь этот цикл работы сам по себе... это дико», — написал он в X (бывший Twitter).

Это не просто ускорение. Это качественный сдвиг: машина не перебирает параметры вслепую — она рассуждает и учится на собственных результатах.

P2P-сеть исследователей: 35 агентов за одну ночь

Реакция сообщества оказалась мгновенной. CEO платформы Hyperspace AI Варун Матур распределил агентов по P2P-сети, где каждый узел стал автономным исследователем. За ночь с 8 на 9 марта 35 агентов провели 333 эксперимента без единого участия человека.

Результаты оказались неожиданными:

  • Разнообразие железа как преимущество: GPU-агенты шли «в лоб» через высокие скорости обучения, тогда как агенты на CPU-ноутбуках, ограниченные мощностью, фокусировались на умных инициализациях весов — и часто побеждали.
  • Вирусное распространение открытий: когда один агент обнаружил, что инициализация Каймина снижает loss на 21%, эта идея через протокол GossipSub распространилась по сети. Через несколько часов 23 других агента уже использовали её.
  • Сжатие истории ML: за 17 часов агенты самостоятельно переоткрыли техники (RMSNorm, tied embeddings), на разработку которых у Google Brain и OpenAI ушло почти восемь лет.

36 500 маркетинговых экспериментов в год вместо 30

Бизнес-сообщество увидело в autoresearch нечто своё. Эрик Сиу, основатель рекламного агентства Single Grain, быстро перевёл идею на язык маркетинга: агент тестирует лендинг, заголовок письма, CTA — и делает это непрерывно, пока команда спит.

«Обычные маркетинговые команды проводят 20–30 экспериментов в год. Следующее поколение будет проводить 36 500+», — написал он. По его словам, победят не те, у кого лучшие маркетологи, а те, у кого быстрее петля экспериментов.

Скептики и реальные вопросы

Обсуждение на GitHub показало: сообщество не просто аплодирует — оно задаёт правильные вопросы. Главный риск — переобучение на валидационной выборке: при достаточно большом числе итераций агент начинает оптимизировать не общую интеллектуальность, а конкретные особенности тестовых данных. Карпати признаёт проблему, но считает её решаемой.

Другой вопрос — значимость улучшений. Насколько реально ощутима разница между 0.9979 и 0.9697? Карпати отвечает прямо: это реальные и существенные выигрыши в производительности на единицу вычислений.

Что это значит для нас

Autoresearch — это не просто инструмент для ML-инженеров. Это манифест нового способа думать об исследованиях. Карпати переносит роль человека: из «экспериментатора» в «проектировщика экспериментов». Ты больше не тот, кто проверяет гипотезы — ты тот, кто формулирует правила игры, а машина играет.

Если этот подход перейдёт из ML в медицину, климатологию, материаловедение — мы можем получить скачок в темпе научного прогресса, сопоставимый с изобретением печатного станка. Пока это 630 строк кода и одна ночь экспериментов. Но история технологий учит нас: именно так всё и начинается.