피드로 돌아가기
Dev.toAI/ML
원문 읽기
프로젝트 구조 캐싱을 통한 LLM 탐색 토큰 99.9% 절감
I Taught My AI Assistant to Remember (And Saved 99% of Its Brain)
AI 요약
Context
LLM 에이전트가 프로젝트 구조 파악을 위해 매 턴마다 반복적으로 bash 명령어를 실행하는 비효율적 구조 분석. Context Window의 한계로 인한 휘발성 메모리가 API 비용 급증과 추론 지연을 유발하는 병목 지점으로 작용함.
Technical Solution
- Project Knowledge의 정적 특성을 이용한 Persistent Memory 계층 도입
/memo harvest명령어를 통한 파일 시스템 전수 조사 및memories.jsonl형태의 Compact Knowledge Base 구축- 파일 확장자 기반 필터링 및 20KB 이하 파일 대상의 Smart Summary 추출 로직 적용
- 시스템 프롬프트에 'Don't use Bash' 제약 조건을 주입하여
memo_search도구 우선 호출 강제 memo_search$\rightarrow$bash/read순의 Fallback 전략을 통한 검색 효율 극대화- LLM Callable Tools로 등록하여 모델이 자율적으로 메모리 룩업을 수행하는 프로토콜 설계
Impact
- TypeScript 컴파일러 레포지토리 기준 토큰 소모량 36M $\rightarrow$ 19K로 감소 (약 99.95% 절감)
- 일반적인 프로젝트 규모에서 95%~99% 수준의 토큰 비용 절감 달성
- 월 평균 LLM API 비용 약 $200 절감 확인
Key Takeaway
자주 변경되지 않는 정적 데이터(Project Structure)를 별도의 인덱싱 계층으로 분리함으로써 LLM의 반복적 재발견 비용을 획기적으로 제거한 사례임.
실천 포인트
- AI 에이전트 도입 시 반복적으로 호출되는 읽기 전용 데이터의 캐싱 전략 검토 - Bash 쉘 접근 권한 부여 전, 정형화된 검색 도구(Search Tool)를 우선 배치하여 토큰 낭비 방지 - 대규모 코드베이스 분석 시 전체 파일 읽기 대신 메타데이터 기반의 Indexing Layer 구축 고려