피드로 돌아가기
How I Built a Prompt Compressor That Saves 65% on LLM Costs
Dev.toDev.to
AI/ML

CPU 기반 5K 파라미터 정책으로 LLM 비용 65% 절감 및 100% Recall 달성

How I Built a Prompt Compressor That Saves 65% on LLM Costs

Arjun Shah2026년 6월 26일3intermediate

Context

LLM의 긴 컨텍스트 처리 시 불필요한 토큰이 KV cache 공간을 점유하여 GPU 연산 낭비와 비용 증가 초래. 기존의 Truncation이나 FIFO 방식은 토큰 절감 효과는 있으나 답변에 필요한 핵심 정보까지 제거하여 Recall 성능이 급격히 저하되는 한계 존재.

Technical Solution

  • GPU 추론 전 단계에 CPU 기반의 경량 Neural Network(약 5K params)를 배치한 CPU-First Eviction 구조 설계
  • 사용자 질문과 컨텍스트 각 라인을 입력으로 받아 관련성 점수를 산출하는 Scoring Policy 도입
  • 설정된 임계값(Threshold) 미만의 저관련성 라인을 사전 제거하여 GPU로 전달되는 토큰 양 최적화
  • Oracle LLM의 판단 데이터를 Ground-truth로 활용하여 Token savings와 Recall 사이의 균형을 맞춘 학습 수행
  • 전체 추론 프로세스 내 CPU 오버헤드를 60ms 수준으로 유지하여 지연 시간 최소화

- RAG 파이프라인 도입 시 단순 상위 K개 문서 추출을 넘어 토큰 단위의 Relevance Scoring 도입 검토 - GPU 부하가 높은 작업 전 단계에 경량 모델을 배치하여 데이터 필터링 단계 구축 - 비용 절감과 품질 유지 사이의 Trade-off를 정량적으로 측정할 수 있는 Oracle Dataset 구축

원문 읽기