피드로 돌아가기
SuperCompress: Cut LLM Costs by 65% Without Losing Answers
Dev.toDev.to
AI/ML

CPU 기반 사전 필터링을 통한 LLM 추론 토큰 65% 절감

SuperCompress: Cut LLM Costs by 65% Without Losing Answers

Arjun Shah2026년 6월 26일1intermediate

Context

Padding 및 불필요한 컨텍스트로 인한 GPU 리소스 낭비 발생. 단순 Truncation 방식의 낮은 Recall 성능으로 인한 정보 손실 문제 상존.

Technical Solution

  • GPU 추론 전 단계에 5K 파라미터 규모의 경량 CPU policy 배치
  • 질문과의 연관성에 기반한 라인별 Relevance Scoring 수행
  • 낮은 점수의 텍스트 라인을 제거하는 Eviction 로직 적용
  • 필수 토큰만을 GPU로 전달하여 KV cache 점유율 최적화
  • CPU 단계의 전처리를 통해 GPU 연산 부하를 원천적으로 차단하는 계층적 아키텍처 설계

Impact

  • 토큰 사용량 65% 절감 및 KV cache 65% 최적화
  • Truncation 대비 100% Oracle Recall 달성
  • CPU 전처리 지연 시간 약 60ms 수준 유지
  • 100만 건 압축 시 800M 토큰 및 29 kWh 에너지 절감

Key Takeaway

고비용 GPU 자원 투입 전 저비용 CPU 레이어에서 데이터 밀도를 높이는 Filtering 전략의 유효성 확인.


1. LLM 입력 컨텍스트 중 중복되거나 불필요한 Boilerplate 존재 여부 확인

2. 단순 Truncation 대신 Relevance 기반의 Dynamic Pruning 도입 검토

3. 추론 파이프라인 앞단에 경량 CPU Policy를 배치하여 GPU 병목 지점 개선 가능성 분석

원문 읽기