프로젝트 구조 캐싱을 통한 LLM 탐색 토큰 99.9% 절감

I Taught My AI Assistant to Remember (And Saved 99% of Its Brain)

k1lgor2026년 4월 30일9분intermediate

AI 요약

Context

LLM 에이전트가 프로젝트 구조 파악을 위해 매 턴마다 반복적으로 bash 명령어를 실행하는 비효율적 구조 분석. Context Window의 한계로 인한 휘발성 메모리가 API 비용 급증과 추론 지연을 유발하는 병목 지점으로 작용함.

Technical Solution

Project Knowledge의 정적 특성을 이용한 Persistent Memory 계층 도입
/memo harvest 명령어를 통한 파일 시스템 전수 조사 및 memories.jsonl 형태의 Compact Knowledge Base 구축
파일 확장자 기반 필터링 및 20KB 이하 파일 대상의 Smart Summary 추출 로직 적용
시스템 프롬프트에 'Don't use Bash' 제약 조건을 주입하여 memo_search 도구 우선 호출 강제
memo_search $\rightarrow$ bash/read 순의 Fallback 전략을 통한 검색 효율 극대화
LLM Callable Tools로 등록하여 모델이 자율적으로 메모리 룩업을 수행하는 프로토콜 설계

Impact

TypeScript 컴파일러 레포지토리 기준 토큰 소모량 36M $\rightarrow$ 19K로 감소 (약 99.95% 절감)
일반적인 프로젝트 규모에서 95%~99% 수준의 토큰 비용 절감 달성
월 평균 LLM API 비용 약 $200 절감 확인

Key Takeaway

자주 변경되지 않는 정적 데이터(Project Structure)를 별도의 인덱싱 계층으로 분리함으로써 LLM의 반복적 재발견 비용을 획기적으로 제거한 사례임.

실천 포인트

- AI 에이전트 도입 시 반복적으로 호출되는 읽기 전용 데이터의 캐싱 전략 검토 - Bash 쉘 접근 권한 부여 전, 정형화된 검색 도구(Search Tool)를 우선 배치하여 토큰 낭비 방지 - 대규모 코드베이스 분석 시 전체 파일 읽기 대신 메타데이터 기반의 Indexing Layer 구축 고려

태그

#Context Window #Persistent Memory #Knowledge Base #Token Optimization #LLM

원문 읽기