Hugging Face 연구팀이 Structured Generation을 도입해 LLM 평가에서 프롬프트 형식 변화에 따른 성능 편차를 평균 5-10% 감소시키고 모델 순위 일관성 향상

Improving Prompt Consistency with Structured Generations

2024년 4월 30일9분intermediate

AI 요약

Context

LLM 벤치마크 평가 결과가 프롬프트 형식의 미세한 변화에 극도로 민감하게 반응한다. MMLU 태스크에서 동일 정보를 담은 8가지 다른 프롬프트 형식으로 평가했을 때 Mistral-7B-v0.1은 약 10포인트, Qwen1.5-7B는 최대 28.3포인트의 성능 편차가 발생했으며, 모델 간 순위도 프롬프트에 따라 불일치했다.

Technical Solution

Structured Generation 적용: 평가 프롬프트에 구조화된 출력 형식을 강제하여 모델의 응답 패턴을 일관되게 유지
Few-shot 샘플 순서 변수화 테스트: 동일 모델과 프롬프트에서 Few-shot 샘플 순서를 변경(예: A/B/C/D/E → C/D/A/B/E)해 추가 편차 측정
그리드 기반 평가: Shot seed와 n-shot 조합의 모든 경우를 매트릭스로 평가하여 구조화 전후 성능 편차 비교
분산 감소 검증: Unstructured 대비 Structured Generation 적용 시 표준편차 감소율 측정

Impact

Mistral-7B-v0.1: 평균 정확도 23.60% → 29.35% (+5.75포인트), 표준편차 0.0213 → 0.0202 (-5.2% 감소)
Zephyr-7b-beta: 평균 정확도 23.87% → 30.48% (+6.61포인트), 표준편차 0.0273 → 0.0180 (-34.1% 감소)
모델 간 순위 일관성이 Structured Generation 적용 후 현저히 개선됨

Key Takeaway

LLM 평가 신뢰성을 위해서는 프롬프트 형식 표준화만큼 중요한 것이 구조화된 출력 강제이며, 이를 통해 예상 성능을 높이면서 동시에 평가 분산을 낮출 수 있다는 점이 핵심이다.

실천 포인트

LLM 벤치마킹이나 평가를 수행하는 ML 엔지니어는 Structured Generation(JSON 스키마, XML 태그 등)을 프롬프트에 명시하고, 여러 프롬프트 변형과 Few-shot 샘플 순서 조합으로 평가하면 프롬프트 형식 민감도로 인한 순위 불일치를 줄이고 모델 비교의 신뢰성을 높일 수 있다.

태그

#Prompt #Structured Generation #LLM #Evaluation

원문 읽기