Когда ИИ-агент сам исправляет свои ошибки
Представьте: ваш AI-ассистент сломался после обновления внутренней документации. Вместо того чтобы звать инженера и разбираться вручную, агент сам анализирует свои неудачные попытки, находит шаблоны ошибок — и переписывает собственные правила. Это не科幻, это уже работает.
Исследователи из Шанхайской лаборатории ИИ представили Self-Harness — фреймворк, в котором LLM-агент систематически улучшает свою собственную конфигурацию (harness), которая включает системные промпты, инструменты, память, правила верификации, политики выполнения и логику восстановления после ошибок.
Почему ручная настройка агентов — это узкое горлышко
Проблема не в том, что люди не способны. По словам ведущего автора статьи Хангфана Чжана, опытный инженер с глубокими знаниями домена всё ещё может предложить улучшения лучше, чем ИИ. Настоящая проблема — в подходе.
Текущий процесс настройки harness — это ручной отладочный цикл, основанный на интуиции и нескольких наблюдаемых ошибках. Новые модели выходят стремительно, и вручную подстраивать каждую — дорого и нереалистично. А reliance на более сильные внешние модели для улучшения более слабых — это дополнительная зависимость и расходы.
Как работает Self-Harness
Фреймворк работает через трёхступенчатый итеративный цикл:
- Добыча слабых мест (Weakness mining). Агент запускает задачи, фиксирует трейсы выполнения с верифицируемыми результатами и категоризирует неудачи, выявляя специфичные для модели паттерны отказов.
- Предложение правок (Harness proposal). Агент в роли «пропозера» генерирует набор диверсифицированных, но минимальных изменений, каждое привязанное к конкретному механизму отказа — без общих размытых исправлений.
- Валидация (Proposal validation). Кандидаты проверяются через регрессионные тесты. Правка принимается, только если улучшает результат без деградации на тестовых задачах. Если проходит несколько — они объединяются в новую версию harness.
Результаты: от 33% до 60% улучшения
Оценка проводилась на Terminal-Bench-2.0 с моделями MiniMax M2.5, Qwen3.5-35B-A3B и GLM-5. Все агенты стартовали с минимальным harness на базе DeepAgent SDK.
Конкретные примеры самоисправлений:
- MiniMax M2.5 зависал в бесконечном переборе конфигураций датасетов → Self-Harness добавил «loop breaker» с ограничением в 50 tool calls и правило создавать артефакты как можно раньше.
- Qwen3.5 при ошибке перезаписи файла слепо повторял ту же команду → введён запрет на дублирование команд и обязательное восстановление удалённых файлов.
- GLM-5 терял переменные окружения между командами → добавлены правила сохранения PATH, ограничение внешних вычислений и обязательный repair sanity checks перед завершением.
Цены самооптимизации
Автоматизация — не бесплатная панацея. Self-Harness требует значительных вычислительных ресурсов: генерация предложений, параллельная оценка кандидатов, регрессионное тестирование — это дополнительные API-токены, задержка при оптимизации и инфраструктура для запуска evaluation-задач.
Критически важна точность системы оценки. Без строгих детерминированных верифайеров система рискует продвигать плохие обновления. Поэтому лучшие области применения — coding, автоматизация внутренних процессов, DevOps-пайплайны. Для медицины, юридической практики и критической инфраструктуры — пока нет.
Личное мнение
На мой взгляд, это правильный вектор. Индустрия AI-агентов созрела для того, чтобы перестать полагаться на ручную подкрутку промптов. Фреймворки самооптимизации вроде Self-Harness переводят инженеров на уровень выше — от патчей к архитектуре обратной связи.
Но есть оговорка: без качественной системы валидации такая самооптимизация превращается в хаос. И если для coding-задач с чёткими pass/fail-критериями это работает отлично — то для более сложных, субъективных сценариев human feedback останется незаменимым ещё долго.
Интересно, что на stiva.ai можно работать с моделями Qwen, MiniMax и GLM — теми самыми, на которых Self-Harness показал лучшие результаты. Возможность опробовать самооптимизированные агенты на этих моделях — ближайшая реальность, а не будущее.





