피드로 돌아가기
Claude Code Felt Off for a Month. Here Is What Broke.
Dev.toDev.to
AI/ML

에이전트 성능 저하를 유발한 3가지 버그 분석 및 Drift 검출 전략

Claude Code Felt Off for a Month. Here Is What Broke.

GDS K S2026년 4월 23일7intermediate

Context

Claude Code의 Reasoning 성능 및 컨텍스트 유지 능력이 약 4주간 저하된 장애 발생. 일반적인 API 에러(HTTP 500)가 아닌, 모델의 지능 저하와 토큰 소모 증가라는 정성적 퇴행(Regression) 형태로 나타나 기존 테스트 스위트로 감지가 불가능했던 상황.

Technical Solution

  • Latency 단축을 위해 Reasoning Effort 기본값을 High에서 Medium으로 하향 조정한 설정 변경
  • Prompt-cache 최적화 과정에서 1시간 휴지기 이후 Thinking Block을 매 턴마다 삭제하는 로직 오류 발생
  • 응답 길이 제한(tool call 사이 25단어, 최종 응답 100단어)을 시스템 프롬프트에 강제하여 벤치마크 지능 하락 초래
  • 단순 단발성 테스트가 아닌 30분 이상의 실제 작업 세션을 통한 Long-session Evaluation 도입
  • 시스템 프롬프트 내에 Version String을 임베딩하여 추적 가능한 Prompt Versioning 체계 구축
  • 턴당 입력 토큰 수의 이동 평균(Rolling Average)을 측정하여 모델의 비정상적 동작을 감지하는 Drift Signal 설계

- 시스템 프롬프트 하단에 버전 태그를 삽입하여 트랜스크립트 내 버전 추적 가능하게 구성 - 턴당 input/output 토큰 및 Cache Hit 여부를 로깅하여 토큰 사용량 급증 패턴 모니터링 - 짧은 데모가 아닌 최소 30분 이상의 실무 시나리오 기반 평가 세트 구축 - 모호한 캐시 무효화 휴리스틱보다 명확한 State Change 기반의 캐시 키 설계 우선

원문 읽기