피드로 돌아가기
Dev.toAI/ML
원문 읽기
n-gram 매칭에서 Neural-based 평가로의 LLM 정량 측정 패러다임 전환
How We Actually Measure Whether an LLM's Output Is Good - BLEU, COMET and BLEURT
AI 요약
Context
초기 LLM 평가는 Human Evaluation의 높은 비용과 280시간/50,000문장 수준의 병목 현상으로 인해 자동화된 지표가 필수적인 상황. 단순 단어 일치 기반의 BLEU 메트릭은 의미적 유사성을 포착하지 못하는 한계로 인해 창의적 답변이나 복잡한 추론 평가에 부적합함.
Technical Solution
- n-gram Overlap 기반의 BLEU를 통해 표면적 단어 일치도 및 문장 길이에 따른 Penalty 적용
- Pretrained Transformer를 Fine-tuning하여 인간의 평가 점수를 예측하는 BLEURT 구조 설계
- 데이터 부족 문제 해결을 위한 Synthetic Corrupted Text 생성 및 Pretraining 단계 도입
- Source Sentence, Reference, Candidate를 모두 입력값으로 사용하는 COMET의 컨텍스트 확장 분석
- 자동화 지표를 High-quality Filter로 활용하여 인간 리뷰어의 검수 대상 범위를 축소하는 파이프라인 구축
실천 포인트
1. 단순 텍스트 일치도(BLEU)보다는 의미적 유사성(COMET, BLEURT) 지표를 우선 검토할 것
2. 평가 데이터셋 부족 시 합성 데이터를 통한 Pretraining 전략을 고려할 것
3. 자동화 메트릭을 최종 결정자가 아닌 후보군 필터링 용도로 배치하여 효율성을 극대화할 것