3가지 설정 오류로 인한 성능 저하 해결 및 모델 기반 코드 감사 체계 도입

Anthropic April 23 Postmortem: 3 Confounding Changes Behind Claude Code's Month-Long Quality Drop

정상록2026년 4월 25일7분advanced

AI 요약

Context

Claude Code의 응답 품질 저하 및 토큰 소모 급증 현상 발생. 시스템 프롬프트 변경, 캐싱 로직 오류, 추론 설정 변경이 복합적으로 작용하여 세션 문맥 상실 및 비용 상승 초래.

default_thinking_effort 설정을 medium에서 high로 복구하여 추론 깊이 및 정답률 확보
clear_thinking_20251015 헤더의 로직을 '임계치 도달 시 1회 삭제'에서 '매 턴 삭제'로 오구현한 점을 수정하여 Reasoning Trace 유지
토큰 비용 절감을 위해 도입한 시스템 프롬프트 내 글자 수 제한(25단어/100단어)을 제거하여 모델 성능 저하 방지
기존 Eval Stack의 한계를 극복하기 위해 차세대 모델(Opus 4.7)을 활용한 코드 리뷰 교차 검증 체계 구축
시스템 프롬프트 변경 시 개별 라인별 영향도를 측정하는 Ablation 테스트 프로세스 도입

실천 포인트

1. 신규 모델 출시 시 기존 프롬프트와 코드 리뷰 결과를 새 모델로 재검증했는가?

2. 시스템 프롬프트의 사소한 문구 수정이 모델 전체 성능에 미치는 영향을 측정할 Ablation 환경이 구축되었는가?

3. 캐싱 전략 변경 시 엣지 케이스(예: 세션 유휴 시간 이후 동작)에 대한 E2E 테스트가 포함되었는가?

태그