피드로 돌아가기
Dev.toAI/ML
원문 읽기
CPU 기반 사전 필터링을 통한 LLM 추론 토큰 65% 절감
SuperCompress: Cut LLM Costs by 65% Without Losing Answers
AI 요약
Context
Padding 및 불필요한 컨텍스트로 인한 GPU 리소스 낭비 발생. 단순 Truncation 방식의 낮은 Recall 성능으로 인한 정보 손실 문제 상존.
Technical Solution
- GPU 추론 전 단계에 5K 파라미터 규모의 경량 CPU policy 배치
- 질문과의 연관성에 기반한 라인별 Relevance Scoring 수행
- 낮은 점수의 텍스트 라인을 제거하는 Eviction 로직 적용
- 필수 토큰만을 GPU로 전달하여 KV cache 점유율 최적화
- CPU 단계의 전처리를 통해 GPU 연산 부하를 원천적으로 차단하는 계층적 아키텍처 설계
Impact
- 토큰 사용량 65% 절감 및 KV cache 65% 최적화
- Truncation 대비 100% Oracle Recall 달성
- CPU 전처리 지연 시간 약 60ms 수준 유지
- 100만 건 압축 시 800M 토큰 및 29 kWh 에너지 절감
Key Takeaway
고비용 GPU 자원 투입 전 저비용 CPU 레이어에서 데이터 밀도를 높이는 Filtering 전략의 유효성 확인.
실천 포인트
1. LLM 입력 컨텍스트 중 중복되거나 불필요한 Boilerplate 존재 여부 확인
2. 단순 Truncation 대신 Relevance 기반의 Dynamic Pruning 도입 검토
3. 추론 파이프라인 앞단에 경량 CPU Policy를 배치하여 GPU 병목 지점 개선 가능성 분석