피드로 돌아가기
Dev.toAI/ML
원문 읽기
70MB 세션을 7MB로, Claude Code 컨텍스트 노이즈 90% 제거 전략
93% of a Claude Code Session Is Noise. Here's the Proof.
AI 요약
Context
Claude Code의 세션 파일(JSONL) 내 중복 메타데이터와 방대한 도구 출력 결과가 저장 공간을 낭비하는 구조. 실제 대화 텍스트는 전체 파일의 3%에 불과하며 나머지 97%는 불필요한 노이즈로 구성된 상태. 세션 크기 증가에 따른 컨텍스트 관리 효율성 저하 문제 발생.
Technical Solution
- 세션 파일의 54%를 차지하는 반복적인 JSON Envelope 필드(sessionId, cwd 등)를 제거하는 최적화 전략
- Read 도구 결과물은 디스크 내 파일로 재확인 가능하므로 전체 삭제 처리
- Bash 출력은 명령 실행 여부 확인을 위해 상단 5줄과 하단 5줄만 보존하는 부분 추출 방식
- Edit 및 Write 작업은 변경 의도 파악을 위해 파일 경로와 변경 전후 200자 미리보기만 유지하는 설계
- 병렬 도구 호출 시 발생하는 데이터 매칭 오류를 해결하기 위해 위치 기반 추적이 아닌 tool_use_id 매칭 로직 도입
- Agent의 분석 결과물은 지식 합성 가치가 높으므로 보존 한도를 2,000자로 상향 조정
Impact
- 전체 세션 크기 90% 감소 (70MB → 7MB)
- 데이터 중복 제거를 통한 저장 용량 효율 극대화
- JSON Envelope 제거만으로 파일 크기의 54% 절감
Key Takeaway
LLM 기반 에이전트에서 원시 데이터(Raw Output)는 지식 생성 과정의 중간 단계일 뿐이며, 최종 응답(Response)이 실제 지식이므로 원본 데이터의 전략적 제거가 컨텍스트 효율을 높이는 핵심임.
실천 포인트
LLM 세션 로그 최적화 시 원시 출력물보다 요약된 결과값과 식별자(ID) 기반의 매칭 구조를 우선 설계할 것