런타임 중 Harness 코드를 직접 수정하는 Self-Improving Agent 아키텍처

Continual Harness: The Gemini Pokémon Agent That Rewrites Its Own Loop

pickuma2026년 5월 20일5분advanced

AI 요약

Context

AI Agent의 성능 결정 요인이 모델 가중치가 아닌 Observation 처리와 Tool 정의를 담당하는 Harness 영역에 집중된 구조적 한계 존재. 기존의 Harness 최적화는 인간 개발자가 실패 사례를 분석하여 오프라인에서 수정 후 재실행하는 수동 루프에 의존함.

Technical Solution

모델 가중치는 동결한 채 Harness의 특정 영역에 Write Access를 부여하는 Online Adaptation 구조 설계
Tool Wrapper, Prompt Template, Retrieval Filter 등 수정 가능 영역(Editable Surface)과 핵심 루프 및 보안 영역을 엄격히 분리
모델이 런타임 중 겪는 반복적 실패를 진단하여 Tool 구현체나 설명을 직접 수정하고 반영하는 Self-Rewrite 로직 구현
모든 코드 변경 사항을 Diff 형태로 관리하여 변경 이력 추적 및 즉각적인 Revert가 가능한 버전 관리 시스템 적용
게임 진행도와 같은 명확한 Feedback Signal을 기반으로 수정 결과의 유효성을 검증하는 루프 구성

실천 포인트

- Agent가 수정 가능한 영역(Tool 설명, 재시도 임계값 등)을 최소 단위로 펜싱하여 정의했는가 - 모든 자가 수정 사항에 대해 '변경 사유-테스트 결과-복구 경로'가 포함된 Commit 기반의 이력 관리가 가능한가 - 수정 성공 여부를 판별할 수 있는 정량적 지표(Task 성공률, Latency 등)가 피드백 루프에 연결되어 있는가 - 모델이 절대 수정할 수 없는 Fixed Core Loop(Kill Switch, 인증 정보 접근 제어 등)가 물리적으로 격리되어 있는가

태그

#Online Adaptation #Feedback Loop #Tool-Use #Self-Improving Agent #Continual Harness

원문 읽기