피드로 돌아가기
Dev.toAI/ML
원문 읽기
200+ Task 기반 LLM 평가 표준화를 통한 Regression Detection 체계 구축
What is an LLM evaluation harness? A deep dive into lm-eval-harness
AI 요약
Context
모델 성능 평가를 단순한 정성적 판단인 Vibes-based evaluation에 의존함에 따라 객관적 지표 부족 및 재현성 결여 문제 발생. 특히 Fine-tuning 과정에서 발생하는 Silent Regression을 감지할 수 있는 정량적 검증 파이프라인의 부재가 핵심 병목으로 작용.
Technical Solution
- Model과 Benchmark를 분리한 Plumbing Layer 설계를 통해 동일 모델의 다수 벤치마크 평가 및 동일 벤치마크의 다수 모델 비교 구조 구현
- YAML 기반 Task 정의를 통한 Dataset Path, Output Type, Metric List의 추상화로 벤치마크 확장성 확보
- Logprob 기반 Argmax(Multiple Choice)와 Text Generation 방식을 분리하여 추론 비용 최적화 및 평가 정밀도 제어
- vLLM, SGLang 등 다양한 Backend 엔진 지원을 통해 추론 최적화 레이어와 평가 로직 간의 결합도 제거
- YAML Config 파일을 통한 Task 관리 체계 도입으로 단순 CLI 실행 방식의 관리 한계 극복 및 설정 재현성 확보
- Backend 의존성을 분리한 Optional Installation 구조 설계로 Wheel 사이즈를 4GB에서 30MB로 경량화
실천 포인트
- 도메인 특화 벤치마크 구축 시 200~500개 샘플의 Golden Set을 구성하고 --include_path를 통해 CI/CD 파이프라인에 통합 - 일반 역량 검증을 위해 MMLU, HellaSwag 등 1~2개의 General Anchor Task를 필수 배치하여 성능 저하 여부 교차 검증 -
0.5포인트 미만의 미세한 점수 변동은 통계적 유의성이 낮으므로 Stability Check 수행 후 판단 - Production Monitoring은 Langfuse, Phoenix 등 Observability 도구로 분리하고, Offline Eval에만 Harness 활용