피드로 돌아가기
Dev.toAI/ML
원문 읽기
70ms Local NLI Judge를 통한 DSPy Reward Scoring 가속화
A 70ms Local NLI Judge Hits 0.596 Pearson r With Groq Llama 3.3 70B on DSPy Reward Scoring
AI 요약
Context
DSPy의 BestOfN 및 Refine 최적화 루프에서 Reward Function으로 LLM-as-a-Judge를 사용할 때 발생하는 고비용 및 고지연 문제 분석. API 호출 기반 평가 방식은 요청당 300~1000ms의 지연 시간과 반복적인 최적화 과정에서의 누적 비용 증가라는 한계점 보유.
Technical Solution
- CPU 최적화된 INT8 Quantized NLI Cross-Encoder 모델 도입을 통한 로컬 추론 환경 구축
- 하드웨어 사양에 따라 4가지 CPU 전용 변체 중 최적 모델을 자동 선택하는 Auto-detection 로직 구현
- 'Text X가 Intent Y를 함축하는가'라는 Narrow Entailment 분류 문제로 Reward Scoring을 재정의하여 계산 복잡도 감소
- ONNX Runtime 활용을 통한 PyTorch 의존성 제거 및 79MB 수준의 경량 런타임 확보
- 단순 0.5 임계값 적용 대신 태스크 특성에 맞는 0.3~0.4 임계값 튜닝으로 Llama 3.3 70B의 판단 기준과 정렬
Impact
- Latency: Mean 799ms(Groq Llama 3.3)에서 70ms로 약 11배 감소
- Cost: 1k calls당 $0.13에서 $0로 비용 완전 제거
- Correlation: Groq Llama 3.3 70B 대비 Pearson r = 0.596, Cohen's kappa 0.633(threshold 0.3) 수준의 유의미한 일치도 달성
- Agreement: Threshold 0.3 적용 시 Binary Agreement 84% 기록
Key Takeaway
최적화 루프 내의 반복적 평가 단계에서는 무거운 LLM 대신 특정 태스크에 특화된 소형 Quantized 모델을 배치함으로써 성능 저하를 최소화하고 반복 속도를 극대화하는 설계 전략 유효
실천 포인트
- DSPy Reward Function 설계 시 지연 시간이 병목인 경우 Local NLI Classifier 도입 검토 - 모델의 엄격함(Strictness)을 조절하기 위해 기본 임계값 외에 도메인 맞춤형 Threshold 튜닝 수행 - 추론 성능 극대화를 위해 ONNX 및 INT8 Quantization 적용 여부 확인 - Reasoning이 필요 없는 단순 분류 태스크에 한해 Narrow Classifier를 사용하여 효율성 확보