Hugging Face가 LLM 기반 데이터 라벨링과 인간 라벨링을 비교 평가해 GPT-4 평가의 길이 편향 및 스케일 설정 문제 3가지 발견

Can foundation models label data like humans?

2023년 6월 12일12분intermediate

AI 요약

Context

명령어 추종 형 LLM의 성능 평가가 어려운 이유는 사용자 선호도가 정성적 스타일에 의존하기 때문입니다. 기존 NLP 평가와 달리 "우리 모델이 ChatGPT보다 N% 더 선호된다"는 주장이 기준이 불명확한 채로 확산되고 있습니다. RLHF 훈련에는 인간 라벨러의 비용이 높게 드는데, 현재는 Anthropic의 HHH 데이터나 OpenAssistant 대화 순위처럼 제한된 인간 라벨 데이터셋만 존재합니다.

Technical Solution

블라인드 테스트 세트 구성: 327개 프롬프트(코딩 25개 포함)와 Koala 13b, Vicuna 13b, OpenAssistant 12b, Dolly 12b의 생성 완성도를 수집해 인간 라벨링 대상 준비
이중 평가 시스템 구축: Scale AI 인간 라벨러와 GPT-4를 병렬로 사용하여 동일한 프롬프트에 대해 1~8점 Likert 척도로 선호도 평가 수행
Elo 순위 체계 도입: 쌍별 비교 데이터에서 부트스트랩 기반 Elo 점수 추정으로 모델 간 상대 순위 산출
세 가지 주요 편향 요인 분석: (1) Likert 척도 선택이 학습 데이터의 토큰 조합에 의해 편향될 수 있는 점, (2) GPT-4가 더 긴 응답을 높게 평가하는 길이 편향, (3) 모델별 대화 형식 및 생성 파라미터(temperature 0.5, top-k 50, top-p 0.95) 튜닝 불완전으로 최대 용량의 70~90%만 발휘하는 점 발견

Key Takeaway

LLM을 평가 라벨러로 사용할 때는 인간 라벨러와의 검증 작업이 필수이며, 특히 척도 설정, 길이 편향, 생성 파라미터 보정이 평가 신뢰성에 직접 영향을 미칩니다.

실천 포인트

LLM으로 모델 성능을 평가하려는 팀에서는 평가 척도를 숫자 대신 명시적 토큰으로 반환하도록 설정하고, 인간 라벨러를 통해 GPT-4 평가의 길이 편향을 검증한 후, 비교 대상 모델들의 생성 파라미터를 동일하게 보정(temperature, top-k, top-p 통일)해야 신뢰할 수 있는 평가 데이터를 확보할 수 있습니다.

태그

#RLHF #LLM Evaluation #Benchmark #Data Labeling #Human Feedback

원문 읽기