LLM 에이전트의 장기 워크플로우 수행 시 평균 50% 데이터 손실 확인

Microsoft researchers find AI models and agents can't handle long-running tasks

2026년 5월 11일4분advanced

AI 요약

Context

자율적 멀티스텝 과업 수행을 표방하는 AI Agent의 실질적 신뢰성 검증 필요성 대두. 기존 벤치마크의 단순성으로 인해 실제 업무 환경의 복잡한 파일 편집 및 유지 관리 능력 측정에 한계 존재.

Technical Solution

DELEGATE-52 벤치마크 설계를 통한 52개 전문 도메인별 멀티스텝 워크플로우 시뮬레이션 수행
단순 텍스트 생성을 넘어 파일 읽기, 쓰기, 코드 실행 권한을 부여한 Agentic Harness 환경 구축
20회 이상의 반복 상호작용을 통한 Long-horizon Evaluation 체계 도입으로 성능 저하 지점 분석
도메인별 Content Corruption 및 Deletion 패턴 분석을 통한 모델별 오류 특성 식별
Python Programming 등 특정 도메인과 일반 자연어 도메인 간의 성능 격차 정밀 측정

Impact

Frontier 모델(Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)의 20회 상호작용 시 평균 25% 콘텐츠 손실 발생
전체 모델 평균 50%의 데이터 성능 저하 및 80%의 시뮬레이션 조건에서 -20% 이상의 심각한 손상 기록
Agentic Tool 사용 시 오히려 성능이 추가로 6% 저하되는 역효과 확인
GPT 모델 패밀리의 경우 16개월간 벤치마크 성능이 14.7%에서 71.5%로 향상된 추세 확인

Key Takeaway

단기 상호작용 성능이 장기 워크플로우의 안정성을 보장하지 않으므로, 상태 유지(State Management)가 필요한 Agent 설계 시 엄격한 Long-horizon 검증 루프 구축이 필수적임.

실천 포인트

- AI Agent 도입 시 단기 Task 성공률이 아닌 20회 이상의 반복 Cycle 테스트 수행 - 파일 편집 및 데이터 변환 과업 시 원본 데이터 보존을 위한 Snapshot 및 Rollback 메커니즘 설계 - Agentic Harness 도입 전 Tool 사용이 오히려 오류를 가중시키는지 정밀 벤치마킹 수행 - 고위험 도메인 작업 시 Human-in-the-loop를 통한 단계별 검증 인터페이스 구현

태그

#AI Agent #Content Corruption #Long-horizon Evaluation #LLM #Agentic Harness

원문 읽기