STIVA

ИИ-агенты научились переписывать собственные правила — улучшение до 60%

Self-Harness позволяет AI-агентам автоматически находить ошибки и исправлять свои настройки

0 просмотров~3 мин чтения
Визуализация самооптимизирующегося AI-агента с нейронными связями, перестраивающими себя, в TRON-стиле с неоновым свечением
Визуализация самооптимизирующегося AI-агента с нейронными связями, перестраивающими себя, в TRON-стиле с неоновым свечением

Когда ИИ-агент сам исправляет свои ошибки

Представьте: ваш AI-ассистент сломался после обновления внутренней документации. Вместо того чтобы звать инженера и разбираться вручную, агент сам анализирует свои неудачные попытки, находит шаблоны ошибок — и переписывает собственные правила. Это не科幻, это уже работает.

Исследователи из Шанхайской лаборатории ИИ представили Self-Harness — фреймворк, в котором LLM-агент систематически улучшает свою собственную конфигурацию (harness), которая включает системные промпты, инструменты, память, правила верификации, политики выполнения и логику восстановления после ошибок.

Почему ручная настройка агентов — это узкое горлышко

Проблема не в том, что люди не способны. По словам ведущего автора статьи Хангфана Чжана, опытный инженер с глубокими знаниями домена всё ещё может предложить улучшения лучше, чем ИИ. Настоящая проблема — в подходе.

Текущий процесс настройки harness — это ручной отладочный цикл, основанный на интуиции и нескольких наблюдаемых ошибках. Новые модели выходят стремительно, и вручную подстраивать каждую — дорого и нереалистично. А reliance на более сильные внешние модели для улучшения более слабых — это дополнительная зависимость и расходы.

Как работает Self-Harness

Фреймворк работает через трёхступенчатый итеративный цикл:

  • Добыча слабых мест (Weakness mining). Агент запускает задачи, фиксирует трейсы выполнения с верифицируемыми результатами и категоризирует неудачи, выявляя специфичные для модели паттерны отказов.
  • Предложение правок (Harness proposal). Агент в роли «пропозера» генерирует набор диверсифицированных, но минимальных изменений, каждое привязанное к конкретному механизму отказа — без общих размытых исправлений.
  • Валидация (Proposal validation). Кандидаты проверяются через регрессионные тесты. Правка принимается, только если улучшает результат без деградации на тестовых задачах. Если проходит несколько — они объединяются в новую версию harness.

Результаты: от 33% до 60% улучшения

Оценка проводилась на Terminal-Bench-2.0 с моделями MiniMax M2.5, Qwen3.5-35B-A3B и GLM-5. Все агенты стартовали с минимальным harness на базе DeepAgent SDK.

Конкретные примеры самоисправлений:

  • MiniMax M2.5 зависал в бесконечном переборе конфигураций датасетов → Self-Harness добавил «loop breaker» с ограничением в 50 tool calls и правило создавать артефакты как можно раньше.
  • Qwen3.5 при ошибке перезаписи файла слепо повторял ту же команду → введён запрет на дублирование команд и обязательное восстановление удалённых файлов.
  • GLM-5 терял переменные окружения между командами → добавлены правила сохранения PATH, ограничение внешних вычислений и обязательный repair sanity checks перед завершением.

Цены самооптимизации

Автоматизация — не бесплатная панацея. Self-Harness требует значительных вычислительных ресурсов: генерация предложений, параллельная оценка кандидатов, регрессионное тестирование — это дополнительные API-токены, задержка при оптимизации и инфраструктура для запуска evaluation-задач.

Критически важна точность системы оценки. Без строгих детерминированных верифайеров система рискует продвигать плохие обновления. Поэтому лучшие области применения — coding, автоматизация внутренних процессов, DevOps-пайплайны. Для медицины, юридической практики и критической инфраструктуры — пока нет.

Личное мнение

На мой взгляд, это правильный вектор. Индустрия AI-агентов созрела для того, чтобы перестать полагаться на ручную подкрутку промптов. Фреймворки самооптимизации вроде Self-Harness переводят инженеров на уровень выше — от патчей к архитектуре обратной связи.

Но есть оговорка: без качественной системы валидации такая самооптимизация превращается в хаос. И если для coding-задач с чёткими pass/fail-критериями это работает отлично — то для более сложных, субъективных сценариев human feedback останется незаменимым ещё долго.

Интересно, что на stiva.ai можно работать с моделями Qwen, MiniMax и GLM — теми самыми, на которых Self-Harness показал лучшие результаты. Возможность опробовать самооптимизированные агенты на этих моделях — ближайшая реальность, а не будущее.

Читайте также

Интерфейс Claude Design с неоновыми компонентами дизайн-системы и строками кода на тёмно-фиолетовом фоне
Новости

Anthropic пересобрала Claude Design: исправление прожорливости токенов, импорт дизайн-систем и бесшовный трансфер в код

Claude Design превращается из демо в платформу: дизайн-системы, двусторонняя связь с Claude Code и девять новых экспортов.

29 июня 2026 г.2
Схематическая визуализация иерархической рекуррентной модели HRM с двумя уровнями вычислений, неоновая киберпанк эстетика
Новости

Основательная ИИ-модель за $1 500: зачем стартапу Sapient понадобилась новая архитектура

Sapient Intelligence обучила 1B-модель с нуля за $1 500 — в сотни раз дешевле аналогов.

29 июня 2026 г.2
Голографический AI-интерфейс для дизайна с парящими UI-компонентами в киберпанк-стиле
Новости

Anthropic починила Claude Design: импорты дизайн-систем, связь с кодом и фикс токенов

Claude Design из прототипа превращается в enterprise-платформу: дизайн-системы из GitHub, двусторонняя связь с Claude Code и новые лимиты

28 июня 2026 г.6
ИИ-агент Adobe в окружении интерфейсов Photoshop, Premiere Pro и Illustrator с неоновым свечением на тёмном фиолетовом фоне
Новости

Adobe встроила ИИ-агентов во весь Creative Cloud — и убила генерацию ради оркестрации

Adobe превратила Firefly из генератора картинок в полноценный ИИ-ассистент, который управляет Premiere Pro, Photoshop и Illustrator

28 июня 2026 г.5