피드로 돌아가기
Claude Code Was Broken for 6 Weeks. AMD Caught It in 6,852 Sessions Before Anthropic Did.
Dev.toDev.to
AI/ML

Claude Code 성능 73% 급락을 증명한 6,852세션 포렌식 감사

Claude Code Was Broken for 6 Weeks. AMD Caught It in 6,852 Sessions Before Anthropic Did.

Phil Rentier Digital2026년 5월 7일9advanced

Context

제공자측 Telemetry와 실제 사용자 경험 간의 괴리로 인한 AI 에이전트 성능 저하 인지 불가 상태 지속. 벤더사의 내부 Eval Suite가 실무 워크로드의 복잡성을 반영하지 못하는 구조적 한계 노출.

Technical Solution

  • Reasoning Effort 설정을 High에서 Medium으로 하향 조정한 잘못된 Trade-off 결정
  • 캐싱 버그(clear_thinking_20251015)로 인한 매 턴 반복 실행 및 리소스 낭비 발생
  • System Prompt Verbosity Limit 적용을 통한 도구 호출 간 응답 25단어, 최종 응답 100단어 제한
  • AMD AI Director의 독립적 포렌식 인프라 구축을 통한 6,852개 세션 데이터 수집 및 정량 분석
  • Tool Call 횟수와 Thinking Block 길이를 추적하여 모델의 행동 변화를 수치화한 검증 로직 적용

Impact

  • Median Thinking Length: 2,200자에서 600자로 73% 급감
  • Files-read-before-edit: 6.6개에서 2.0개로 감소
  • Stop-hook Violation: 0건에서 일 평균 약 10건으로 증가
  • 문제 인지 및 확인까지 총 6주(42일) 소요 및 AMD의 벤더 교체 단행

Key Takeaway

벤더 제공 메트릭에만 의존하는 것은 단일 장애점(Single Point of Failure)을 형성함. 외부 의존성이 높은 AI 워크플로우일수록 자체적인 Telemetry와 Eval Glue를 통한 독립적 모니터링 체계 구축이 필수적임.


- AI 에이전트의 입력/출력뿐만 아니라 Thinking Process의 길이를 정량적으로 측정하는 지표 설정 - 벤더사 업데이트에 따른 성능 회귀를 감지할 수 있는 자체 Golden Dataset 기반의 Regression Test 도입 - 특정 모델의 성능 저하 시 즉시 전환 가능한 Multi-stack 라우팅 아키텍처 검토 - 정성적 피드백을 정량적 데이터로 변환할 수 있는 세션 로그 수집 파이프라인 구축

원문 읽기