ИИ-агент как учёный: Карпати запустил 700 экспериментов за ночь — и машина нашла то, что человек пропускал годами
630 строк, которые меняют всё
Андрей Карпати — соучредитель OpenAI, бывший директор по ИИ Tesla и человек, придумавший термин «вайб-кодинг» — выложил на GitHub проект autoresearch. Скромный 630-строчный скрипт под MIT-лицензией. Но за этой скромностью скрывается одна из самых радикальных идей последнего времени: полностью автоматизировать научный метод с помощью ИИ-агентов.
Как работает «петля Карпати»
Система проста до элегантности. ИИ-агент получает обучающий скрипт и фиксированный бюджет вычислений — обычно 5 минут на GPU. Дальше он действует самостоятельно:
- читает собственный исходный код;
- формулирует гипотезу об улучшении (например, изменить скорость обучения или глубину архитектуры);
- вносит изменение и запускает эксперимент;
- оценивает результат по метрике val_bpb (validation loss);
- если стало лучше — оставляет; если нет — откатывается и пробует снова.
За одну ночь агент провёл 126 экспериментов и снизил val_bpb с 0.9979 до 0.9697. За два дня автономной работы — около 700 изменений, 20 из которых оказались по-настоящему ценными. В итоге время до достижения качества GPT-2 сократилось на 11%.
Машина заметила то, что человек пропустил за 20 лет
Самый поразительный момент: агент обнаружил ошибки в масштабировании механизма внимания и регуляризации, которые Карпати не видел вручную на протяжении двух десятилетий работы. «Видеть, как агент делает весь этот цикл работы сам по себе... это дико», — написал он в X (бывший Twitter).
Это не просто ускорение. Это качественный сдвиг: машина не перебирает параметры вслепую — она рассуждает и учится на собственных результатах.
P2P-сеть исследователей: 35 агентов за одну ночь
Реакция сообщества оказалась мгновенной. CEO платформы Hyperspace AI Варун Матур распределил агентов по P2P-сети, где каждый узел стал автономным исследователем. За ночь с 8 на 9 марта 35 агентов провели 333 эксперимента без единого участия человека.
Результаты оказались неожиданными:
- Разнообразие железа как преимущество: GPU-агенты шли «в лоб» через высокие скорости обучения, тогда как агенты на CPU-ноутбуках, ограниченные мощностью, фокусировались на умных инициализациях весов — и часто побеждали.
- Вирусное распространение открытий: когда один агент обнаружил, что инициализация Каймина снижает loss на 21%, эта идея через протокол GossipSub распространилась по сети. Через несколько часов 23 других агента уже использовали её.
- Сжатие истории ML: за 17 часов агенты самостоятельно переоткрыли техники (RMSNorm, tied embeddings), на разработку которых у Google Brain и OpenAI ушло почти восемь лет.
36 500 маркетинговых экспериментов в год вместо 30
Бизнес-сообщество увидело в autoresearch нечто своё. Эрик Сиу, основатель рекламного агентства Single Grain, быстро перевёл идею на язык маркетинга: агент тестирует лендинг, заголовок письма, CTA — и делает это непрерывно, пока команда спит.
«Обычные маркетинговые команды проводят 20–30 экспериментов в год. Следующее поколение будет проводить 36 500+», — написал он. По его словам, победят не те, у кого лучшие маркетологи, а те, у кого быстрее петля экспериментов.
Скептики и реальные вопросы
Обсуждение на GitHub показало: сообщество не просто аплодирует — оно задаёт правильные вопросы. Главный риск — переобучение на валидационной выборке: при достаточно большом числе итераций агент начинает оптимизировать не общую интеллектуальность, а конкретные особенности тестовых данных. Карпати признаёт проблему, но считает её решаемой.
Другой вопрос — значимость улучшений. Насколько реально ощутима разница между 0.9979 и 0.9697? Карпати отвечает прямо: это реальные и существенные выигрыши в производительности на единицу вычислений.
Что это значит для нас
Autoresearch — это не просто инструмент для ML-инженеров. Это манифест нового способа думать об исследованиях. Карпати переносит роль человека: из «экспериментатора» в «проектировщика экспериментов». Ты больше не тот, кто проверяет гипотезы — ты тот, кто формулирует правила игры, а машина играет.
Если этот подход перейдёт из ML в медицину, климатологию, материаловедение — мы можем получить скачок в темпе научного прогресса, сопоставимый с изобретением печатного станка. Пока это 630 строк кода и одна ночь экспериментов. Но история технологий учит нас: именно так всё и начинается.