Self-Harness: ИИ переписывает свои правила

Когда ИИ-агент сам исправляет свои ошибки

Представьте: ваш AI-ассистент сломался после обновления внутренней документации. Вместо того чтобы звать инженера и разбираться вручную, агент сам анализирует свои неудачные попытки, находит шаблоны ошибок — и переписывает собственные правила. Это не科幻, это уже работает.

Исследователи из Шанхайской лаборатории ИИ представили Self-Harness — фреймворк, в котором LLM-агент систематически улучшает свою собственную конфигурацию (harness), которая включает системные промпты, инструменты, память, правила верификации, политики выполнения и логику восстановления после ошибок.

Почему ручная настройка агентов — это узкое горлышко

Проблема не в том, что люди не способны. По словам ведущего автора статьи Хангфана Чжана, опытный инженер с глубокими знаниями домена всё ещё может предложить улучшения лучше, чем ИИ. Настоящая проблема — в подходе.

Текущий процесс настройки harness — это ручной отладочный цикл, основанный на интуиции и нескольких наблюдаемых ошибках. Новые модели выходят стремительно, и вручную подстраивать каждую — дорого и нереалистично. А reliance на более сильные внешние модели для улучшения более слабых — это дополнительная зависимость и расходы.

Как работает Self-Harness

Фреймворк работает через трёхступенчатый итеративный цикл:

Добыча слабых мест (Weakness mining). Агент запускает задачи, фиксирует трейсы выполнения с верифицируемыми результатами и категоризирует неудачи, выявляя специфичные для модели паттерны отказов.
Предложение правок (Harness proposal). Агент в роли «пропозера» генерирует набор диверсифицированных, но минимальных изменений, каждое привязанное к конкретному механизму отказа — без общих размытых исправлений.
Валидация (Proposal validation). Кандидаты проверяются через регрессионные тесты. Правка принимается, только если улучшает результат без деградации на тестовых задачах. Если проходит несколько — они объединяются в новую версию harness.

Результаты: от 33% до 60% улучшения

Оценка проводилась на Terminal-Bench-2.0 с моделями MiniMax M2.5, Qwen3.5-35B-A3B и GLM-5. Все агенты стартовали с минимальным harness на базе DeepAgent SDK.

Конкретные примеры самоисправлений:

MiniMax M2.5 зависал в бесконечном переборе конфигураций датасетов → Self-Harness добавил «loop breaker» с ограничением в 50 tool calls и правило создавать артефакты как можно раньше.
Qwen3.5 при ошибке перезаписи файла слепо повторял ту же команду → введён запрет на дублирование команд и обязательное восстановление удалённых файлов.
GLM-5 терял переменные окружения между командами → добавлены правила сохранения PATH, ограничение внешних вычислений и обязательный repair sanity checks перед завершением.

Цены самооптимизации

Автоматизация — не бесплатная панацея. Self-Harness требует значительных вычислительных ресурсов: генерация предложений, параллельная оценка кандидатов, регрессионное тестирование — это дополнительные API-токены, задержка при оптимизации и инфраструктура для запуска evaluation-задач.

Критически важна точность системы оценки. Без строгих детерминированных верифайеров система рискует продвигать плохие обновления. Поэтому лучшие области применения — coding, автоматизация внутренних процессов, DevOps-пайплайны. Для медицины, юридической практики и критической инфраструктуры — пока нет.

Личное мнение

На мой взгляд, это правильный вектор. Индустрия AI-агентов созрела для того, чтобы перестать полагаться на ручную подкрутку промптов. Фреймворки самооптимизации вроде Self-Harness переводят инженеров на уровень выше — от патчей к архитектуре обратной связи.

Но есть оговорка: без качественной системы валидации такая самооптимизация превращается в хаос. И если для coding-задач с чёткими pass/fail-критериями это работает отлично — то для более сложных, субъективных сценариев human feedback останется незаменимым ещё долго.

Интересно, что на stiva.ai можно работать с моделями Qwen, MiniMax и GLM — теми самыми, на которых Self-Harness показал лучшие результаты. Возможность опробовать самооптимизированные агенты на этих моделях — ближайшая реальность, а не будущее.

ИИ-агенты научились переписывать собственные правила — улучшение до 60%

Когда ИИ-агент сам исправляет свои ошибки

Почему ручная настройка агентов — это узкое горлышко

Как работает Self-Harness

Результаты: от 33% до 60% улучшения

Цены самооптимизации

Личное мнение

Об авторе

Нова

Читайте также

Anthropic пересобрала Claude Design: исправление прожорливости токенов, импорт дизайн-систем и бесшовный трансфер в код

Основательная ИИ-модель за $1 500: зачем стартапу Sapient понадобилась новая архитектура

Anthropic починила Claude Design: импорты дизайн-систем, связь с кодом и фикс токенов

Adobe встроила ИИ-агентов во весь Creative Cloud — и убила генерацию ради оркестрации