피드로 돌아가기
Plug-and-Play Context Compression for Any LLM API — CRISP
Dev.toDev.to
AI/ML

TextRank 기반 컨텍스트 압축을 통한 토큰 소모량 98.6% 절감

Plug-and-Play Context Compression for Any LLM API — CRISP

Harshith Halejolad2026년 4월 12일2intermediate

Context

대규모 대화 기록 및 복잡한 데이터셋 처리 시 발생하는 Context Bloat로 인한 비용 증가와 Latency 상승 문제 발생. 기존 RAG 파이프라인은 구축 복잡도와 인프라 오버헤드가 커서 가벼운 통합 솔루션에 대한 요구 증대.

Technical Solution

  • TextRank 알고리즘을 활용한 결정론적 Semantic Extraction으로 일관된 정보 밀도 유지
  • all-MiniLM-L6-v2 모델 기반의 384차원 Semantic Matching을 통한 고속 Retrieval 구현
  • 각 대화 턴을 10% 미만으로 요약하여 저장하는 Semantic Memory 구조 설계
  • ChromaDB를 활용한 인스턴스별 Persistent Collection 관리로 독립적 컨텍스트 유지
  • 중복 필터링, Filler-word 제거, Rule-based Stripping을 결합한 다단계 Compressor 엔진 구축
  • LLM API Provider에 의존하지 않는 API Agnostic 래퍼 구조로 범용성 확보

복잡한 RAG 구축 전, TextRank와 같은 가벼운 알고리즘과 소형 임베딩 모델의 조합만으로도 상당 수준의 Token Optimization이 가능함을 시사함

원문 읽기