STIVA

Anthropic представила «мечты» для ИИ: агенты учатся на своих ошибках сами

Anthropic показала систему, где ИИ-агенты анализируют свои прошлые сессии и улучшают работу без участия людей.

0 просмотров~3 мин чтения
Светящаяся нейронная сеть в стиле киберпанк на тёмно-фиолетовом фоне с голубыми и фиолетовыми неоновыми лучами
Светящаяся нейронная сеть в стиле киберпанк на тёмно-фиолетовом фоне с голубыми и фиолетовыми неоновыми лучами

Anthropic заставила ИИ-агентов учиться на своих ошибках

На конференции Code with Claude 2026 компания Anthropic представила три функции, которые меняют правила игры в мире ИИ-агентов: dreaming (мечты), outcomes (результаты) и multi-agent orchestration (мультиагентная оркестровка). Если коротко — антропоидные ИИ научились «спать и учиться на своих ошибках», проверять свою работу свежим взглядом и распараллеливать сложные задачи между несколькими агентами.

Как работают «мечты» ИИ-агента

Dreaming — это запланированный процесс, в ходе которого агент просматривает свои прошлые сессии, выделяет повторяющиеся паттерны, ошибки и успешные рабочие последовательности, а затем оформляет их в структурированные «плейбуки». Ключевой момент: веса модели не меняются. Обучение происходит на уровне текстовых заметок, которые будущие сессии могут прочитать. Всё прозрачно и проверяемо — человек может зайти и увидеть, что именно агент «усвоил».

Аналогия с человеческим опытом здесь не случайна. Как опытный сотрудник со временем накапливает «know-how», так и ИИ-агент записывает для себя выводы, которых нельзя увидеть в рамках одной сессии. По словам разработчиков Anthropic, агент буквально «учится писать лучшие заметки для своего будущего себя».

Live-демо: посадка дронов на Луну и ИИ, который учится за ночь

На конференции показали показательный пример. Команда запустила симуляцию: три специализированных агента — командир, детектор посадочных площадок и навигатор — управляли посадкой дронов на Луну. Первая серия из шести симуляций дала хороший, но не идеальный результат. Затем один из агентов «подремал» — за ночь проанализировал все прошлые прогоны и составил детальный плейбук посадки.

Утром новую серию симуляций запустили с этим плейбуком в памяти. Результаты на проблемных площадках заметно улучшились. Никто из людей не писал плейбук — агент сам извлёк уроки из своих ошибок.

Grader-агент: кто проверяет работу ИИ

Функция outcomes (теперь в публичной бете) решает ещё одну важную проблему — как убедиться, что агент выполнил задачу правильно. Разработчик задаёт рубрику критериев успеха, а отдельный grader-агент в независимом контекстном окне оценивает результат. Если есть расхождения — рабочий агент получает конкретные указания, что исправить. Цикл повторяется, пока все критерии не будут выполнены.

Это принципиально отличается от обычного «попросить ИИ проверить себя». Свежий контекст, свободный от накопленных в сессии предубеждений, consistently находит больше ошибок.

Мультиагентность: когда один агент слишком перегружен

Каждый суб-агент в мультиагентной архитектуре имеет свой модель, промпт, инструменты и независимое контекстное окно. Anthropic обнаружила, что разделение работы с последующим объединением результатов даёт лучшее качество, чем попытка одного агента удержать всю сложность в одном потоке. Особенно это полезно для задач-исследований, где много промежуточных данных, которые в конечном счёте не нужны — суб-агенты «отбрасываются» после выполнения своей части.

Рост, который сломал все прогнозы

Дарио Амодиа сообщил, что в первом квартале 2026 года выручка и использование Claude выросли в 80 раз в годовом исчислении — вместо запланированных 10x. Объём API вырос почти в 70x. Средний разработчик Claude Code проводит с инструментом 20 часов в неделю. Столь взрывной рост привёл к сложностям с вычислительными мощностями — компания удвоила пятичасовые лимиты и заключила партнёрство со SpaceX для использования дата-центра Colossus на полную мощность.

Личное мнение

Из трёх представленных технологий именно dreaming кажется самым оригинальным и перспективным. Мы привыкли думать, что обучение ИИ — это всегда тренировка модели с изменением весов, что-то дорогое и непрозрачное. Anthropic показывает альтернативный путь: обучение на уровне текстовых артефактов. Да, это менее «фундаментально», зато полностью auditable — можно посмотреть, что агент «запомнил», и при необходимости исправить. Для enterprise-сегмента, где доверие и прозрачность — обязательные требования, это сильная позиция.

Амодиа предсказал, что 2026 год породит первую компанию c миллиардной выручкой, управляемую одним человеком и ИИ-агентами. До этого ещё семь месяцев — посмотрим, успеет ли кто-то.

Итог

Связка из dreaming, outcomes и multi-agent orchestration закрывает три главных проблемы ИИ-агентов в продакшене: точность, обучение и масштабируемость. Если вы строите приложения с ИИ — это то, за чем стоит следить уже сейчас. А получить доступ к Claude и ещё 80 популярным ИИ-платформам можно на stiva.ai.

Читайте также