피드로 돌아가기
The RegisterAI/ML
원문 읽기
LLM 에이전트의 장기 워크플로우 수행 시 평균 50% 데이터 손실 확인
Microsoft researchers find AI models and agents can't handle long-running tasks
AI 요약
Context
자율적 멀티스텝 과업 수행을 표방하는 AI Agent의 실질적 신뢰성 검증 필요성 대두. 기존 벤치마크의 단순성으로 인해 실제 업무 환경의 복잡한 파일 편집 및 유지 관리 능력 측정에 한계 존재.
Technical Solution
- DELEGATE-52 벤치마크 설계를 통한 52개 전문 도메인별 멀티스텝 워크플로우 시뮬레이션 수행
- 단순 텍스트 생성을 넘어 파일 읽기, 쓰기, 코드 실행 권한을 부여한 Agentic Harness 환경 구축
- 20회 이상의 반복 상호작용을 통한 Long-horizon Evaluation 체계 도입으로 성능 저하 지점 분석
- 도메인별 Content Corruption 및 Deletion 패턴 분석을 통한 모델별 오류 특성 식별
- Python Programming 등 특정 도메인과 일반 자연어 도메인 간의 성능 격차 정밀 측정
Impact
- Frontier 모델(Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)의 20회 상호작용 시 평균 25% 콘텐츠 손실 발생
- 전체 모델 평균 50%의 데이터 성능 저하 및 80%의 시뮬레이션 조건에서 -20% 이상의 심각한 손상 기록
- Agentic Tool 사용 시 오히려 성능이 추가로 6% 저하되는 역효과 확인
- GPT 모델 패밀리의 경우 16개월간 벤치마크 성능이 14.7%에서 71.5%로 향상된 추세 확인
Key Takeaway
단기 상호작용 성능이 장기 워크플로우의 안정성을 보장하지 않으므로, 상태 유지(State Management)가 필요한 Agent 설계 시 엄격한 Long-horizon 검증 루프 구축이 필수적임.
실천 포인트
- AI Agent 도입 시 단기 Task 성공률이 아닌 20회 이상의 반복 Cycle 테스트 수행 - 파일 편집 및 데이터 변환 과업 시 원본 데이터 보존을 위한 Snapshot 및 Rollback 메커니즘 설계 - Agentic Harness 도입 전 Tool 사용이 오히려 오류를 가중시키는지 정밀 벤치마킹 수행 - 고위험 도메인 작업 시 Human-in-the-loop를 통한 단계별 검증 인터페이스 구현