Anthropic научила ИИ-агентов работать непрерывно

Новости
Anthropic научила ИИ-агентов работать непрерывно

Команда Anthropic опубликовала подробное исследование о том, как научить ИИ-агентов работать часами и днями, не теряя прогресс после каждой сессии. Проблема старая: каждый запуск модели — это история без памяти о предыдущем контексте. В рамках Claude Agent SDK инженеры нашли способ заставить агентов продолжать работу так, будто они один непрерывный процесс.

Современные модели опираются на ограниченные контекстные окна. Когда задача выходит за их пределы — например, создание веб-приложения, — агент неизбежно теряет часть истории. Компакция контекста помогает, но не решает проблему полностью.

В экспериментах Claude допускал два типичных сбоя:

Пытался сделать всё сразу, начинал реализацию большой фичи, заканчивал окно токенов и передавал управление следующей сессии в полуразрушенном состоянии.

Преждевременно объявлял победу, видя часть готовых фич, и решал, что работа завершена.

Anthropic разложила задачу на две роли — и это сильно улучшило устойчивость:

1. Initializer agent.

Создаёт структуру проекта при первом запуске:

init.sh;

claude-progress.txt с логом работы;

первичный git-коммит;

файл-список всех требований к проекта (часто сотни фич), все помечены как не реализованные.

2. Coding agent.

Каждая следующая сессия:

выбирает одну фичу;

делает инкрементальные изменения;

оставляет репозиторий в чистом, рабочем состоянии;

пишет git-коммит и обновляет claude-progress.txt.

Такой workflow позволяет следующему агенту «прийти на смену» и сразу понимать, что сделано, что сломано и что делать дальше.

Отдельное внимание уделили файлу с фичами в формате JSON. Агенту строго запрещено менять или удалять тесты: он может только переключать поле passes после успешной проверки. Такой подход оказался намного стабильнее использования Markdown — модель меньше ломает структуру.

Без жёсткого запроса на end-to-end-тестирование агенты отмечали задачи как выполненные, даже если фича не работала полностью. Anthropic встроила браузерную автоматизацию через Puppeteer MCP: Claude запускает локальный сервер, открывает страницу, кликает кнопки, отправляет сообщения и получает ответы — как реальный пользователь.

Это значительно уменьшило число скрытых багов.

Запуск Coding Agent начинается с рутины, знакомой каждому разработчику:

 pwd;

чтение git-лога;

чтение claude-progress.txt;

просмотр списка фич;

запуск init.sh и dev-сервера;

базовая проверка чата, загрузки диалогов, переключения темы и т. д.

Если базовые функции сломаны — агент сначала чинит их, а не продолжает разработку поверх ошибок.

Anthropic выделила четыре типичных сбоя и показала, как новый подход решает их:

Проблема

Решение Initializer

Решение Coding Agent

Агент объявляет проект завершённым

Создание списка всех фич

Выбор одной фичи и работа только над ней

Среда разрушается между сессиями

Начальный git-репо + прогресс-файл

Каждый запуск: чтение логов, базовое тестирование

Фичи отмечаются как готовые преждевременно

Жёсткая спецификация в JSON

Проверка через браузерную автоматизацию

Агент не знает, как запустить проект

init.sh

Использование скрипта при старте

Anthropic утверждает: такой подход существенно повышает надёжность и помогает моделям работать над крупными задачами почти бесконечно — пока остаются фичи, которые надо реализовать.


23
Нет комментариев. Ваш будет первым!

Ещё посты