피드로 돌아가기
The RegisterAI/ML
원문 읽기
Reasoning Effort 조정 및 Cache Bug로 인한 성능 저하와 복구 사례
Anthropic admits it dumbed down Claude when trying to make it smarter
AI 요약
Context
Claude Code 및 Agent SDK의 Latency 감소와 인프라 비용 최적화를 위해 추론 수준 조정 및 캐시 전략 변경을 시도함. 이 과정에서 모델의 지능 수준 저하와 세션 데이터 유실이라는 예기치 못한 부작용이 발생함.
Technical Solution
- Latency 단축을 위해 Reasoning Effort Level을 High에서 Medium으로 하향 조정하여 토큰 소비량 감소 도모
- 세션 재개 비용 절감을 위해 1시간 이상 유휴 상태인 Output Token(Thinking Sessions)을 삭제하는 Cache Optimization 로직 도입
- 모델의 Verbosity(장황함) 개선을 위해 System Prompt 수정 및 Opus 4.7 릴리즈와 병행 적용
- 사용자 피드백에 기반하여 Reasoning Effort Level을 'xhigh'로 상향 복구
- 매 턴마다 세션 데이터를 삭제하던 Cache Bug 수정으로 Context 유지 능력 회복
- Ablation Test를 통해 성능 저하가 확인된 System Prompt 변경 사항 롤백
실천 포인트
1. 추론 비용 최적화 시 기본 설정(Default)을 낮추기보다 사용자 선택제(Opt-in) 도입 검토
2. 캐시 삭제 로직 도입 시 TTL 기반의 정밀한 삭제 범위와 사이클 검증 수행
3. 프롬프트 수정 후 실제 성능 변화를 측정하기 위한 Ablation Test 파이프라인 구축