피드로 돌아가기
How We Actually Measure Whether an LLM's Output Is Good - BLEU, COMET and BLEURT
Dev.toDev.to
AI/ML

n-gram 매칭에서 Neural-based 평가로의 LLM 정량 측정 패러다임 전환

How We Actually Measure Whether an LLM's Output Is Good - BLEU, COMET and BLEURT

Shrijith Venkatramana2026년 6월 26일6intermediate

Context

초기 LLM 평가는 Human Evaluation의 높은 비용과 280시간/50,000문장 수준의 병목 현상으로 인해 자동화된 지표가 필수적인 상황. 단순 단어 일치 기반의 BLEU 메트릭은 의미적 유사성을 포착하지 못하는 한계로 인해 창의적 답변이나 복잡한 추론 평가에 부적합함.

Technical Solution

  • n-gram Overlap 기반의 BLEU를 통해 표면적 단어 일치도 및 문장 길이에 따른 Penalty 적용
  • Pretrained Transformer를 Fine-tuning하여 인간의 평가 점수를 예측하는 BLEURT 구조 설계
  • 데이터 부족 문제 해결을 위한 Synthetic Corrupted Text 생성 및 Pretraining 단계 도입
  • Source Sentence, Reference, Candidate를 모두 입력값으로 사용하는 COMET의 컨텍스트 확장 분석
  • 자동화 지표를 High-quality Filter로 활용하여 인간 리뷰어의 검수 대상 범위를 축소하는 파이프라인 구축

1. 단순 텍스트 일치도(BLEU)보다는 의미적 유사성(COMET, BLEURT) 지표를 우선 검토할 것

2. 평가 데이터셋 부족 시 합성 데이터를 통한 Pretraining 전략을 고려할 것

3. 자동화 메트릭을 최종 결정자가 아닌 후보군 필터링 용도로 배치하여 효율성을 극대화할 것

원문 읽기