피드로 돌아가기
Claude Code, 2월 업데이트 이후 복잡한 엔지니어링 작업에서 사용 불가 수준으로 품질 저하
GeekNewsGeekNews
AI/ML

Claude Code, 2월 업데이트 이후 복잡한 엔지니어링 작업에서 사용 불가 수준으로 품질 저하

Thinking 토큰 73% 급감, Claude Code 품질 저하의 정량적 분석

neo2026년 4월 7일12advanced

Context

Claude Code 2월 업데이트 이후 복잡한 엔지니어링 작업 수행 능력 급감. 지시 무시 및 작업 미완료 상태에서의 완료 주장 현상 빈번. Extended Thinking 토큰 감축으로 인한 사고 깊이 저하가 핵심 원인.

Technical Solution

  • 'Read-First'에서 'Edit-First'로 행동 패턴 전환 및 파일당 읽기 횟수 축소
  • 정밀 편집 대신 전체 파일 재작성(Write) 방식으로 전환하여 맥락 인식률 저하
  • 사고 깊이 감소에 따른 멀티 스텝 계획 수립 및 자체 실수 검증 단계 누락
  • stop-phrase-guard.sh 스크립트를 통한 모델의 작업 중단 및 책임 회피 표현 강제 차단
  • 부하량에 따라 사고 토큰을 동적으로 할당하는 시스템 운영 추정
  • 고부하 사용자를 위한 Max Thinking 티어 및 API 응답 내 thinking_tokens 지표 도입 제안

Impact

  • 사고 깊이 기준 대비 최대 73% 감소
  • 파일당 읽기 횟수 6.6회에서 2.0회로 70% 감소
  • 전체 파일 Write 비율 4.9%에서 11.1%로 2배 이상 증가
  • 사용자 프롬프트 내 불만 표현 68% 증가 및 코드 커밋 빈도 58% 감소
  • API 요청 80배, 출력 토큰 64배, 비용 122배 증가했으나 품질은 오히려 저하
  • 1K 툴 호출당 사용자 인터럽트 수 0.9회에서 11.4회로 12배 증가

Key Takeaway

LLM 기반 에이전트의 복잡한 추론 능력은 출력 전 단계의 사고 토큰(Thinking Budget) 확보량에 직접적으로 비례함. 사고 과정의 투명성과 정량적 지표 없이는 모델의 성능 저하를 식별하고 대응하는 데 한계가 있음.


복잡한 코드베이스 작업 시 모델의 '읽기-편집' 비율을 모니터링하고, 단순 우회책(simplest fix) 제시 빈도 증가 시 추론 예산 부족을 의심할 것

원문 읽기