Token Tax 해결을 위한 .NET 기반 Context Compression 파이프라인 설계

Context Compression in .NET

Lukas2026년 4월 27일2분intermediate

AI 요약

Context

RAG 시스템에서 대규모 리트리브 문서를 프리미엄 모델로 전송함에 따라 발생하는 비용 증가와 Latency 상승 문제. HTML 태그 및 중복 헤더 등 저가치 텍스트가 포함된 10,000개 이상의 Token이 처리 비용을 가중시키는 구조적 한계 존재.

소형 모델을 활용한 전처리: ONNX Runtime GenAI 기반 Phi 모델을 배치하여 핵심 기술 사실 및 식별자만 추출하는 Pre-processing 단계 구축
Middleware Pattern 도입: Microsoft.Extensions.AI의 IChatClient를 활용하여 요청 전 단계에서 컨텍스트를 정제하는 구조 설계
DelegatingChatClient 구현: 비즈니스 로직과 분리된 파이프라인 내에서 HTML 제거, 저가치 Chunk 필터링, 컨텍스트 압축을 수행하는 인터셉터 구성
Pipeline Composition 적용: 챗 클라이언트 간의 체이닝을 통해 모델 교체 시에도 압축 로직을 유지하는 프롬프트 불가지론적(Prompt-agnostic) 설계

실천 포인트

1. RAG 파이프라인에 DelegatingChatClient 패턴을 적용하여 전처리 로직을 모듈화했는지 검토

2. 전체 컨텍스트 전송 전 Phi-3와 같은 소형 모델을 통한 핵심 정보 추출 단계 추가 고려

3. HTML 및 Boilerplate 제거를 위한 정규식 또는 전용 파서의 Middleware 배치 여부 확인

태그