피드로 돌아가기
Judge Arena: Benchmarking LLMs as Evaluators
Hugging Face BlogHugging Face Blog
AI/ML

Atla가 LLM을 평가자로 사용하는 모델들을 벤치마크하는 Judge Arena 플랫폼을 출시해 18개 최신 LLM의 평가 능력을 크라우드소싱 투표로 비교

Judge Arena: Benchmarking LLMs as Evaluators

2024년 11월 19일7intermediate

Context

LLM-as-a-Judge는 LLM 애플리케이션의 자연어 출력을 평가하는 인기 있는 방법으로 부상했으나, 어떤 모델이 최고의 판사 역할을 하는지 검증할 방법이 부족했다. LLM 평가가 인간의 선호도를 포착해야 하는 만큼 직접적인 인간 피드백을 통한 판사 모델 검증이 필요했다.

Technical Solution

  • 크라우드소싱 투표 방식 도입: LMSys의 Chatbot Arena(200만 건 이상의 투표 수집)에서 영감을 받아 사용자가 두 LLM 판사의 평가를 직접 비교하고 투표하는 구조 설계
  • 18개 최신 LLM 선정 및 통합: OpenAI(GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo), Anthropic(Claude 3.5 Sonnet/Haiku, Claude 3 Opus/Sonnet/Haiku), Meta(Llama 3.1 Instruct 405B/70B/8B), Alibaba(Qwen 2.5 Instruct 7B/72B, Qwen 2 Instruct 72B), Google(Gemma 2 9B/27B), Mistral(Instruct v0.3/v0.1 7B) 포함
  • 평가 모델 선정 기준 정형화: 점수 부여와 비평 제공이 모두 가능하며, 다양한 평가 형식과 기준에 따라 프롬프트 변경 가능한 생성형 모델만 선택
  • 익명성 기반 편향 제거: 투표 제출 후에만 모델 이름 공개해 평가 편향 및 악용 방지
  • Elo 점수 기반 리더보드: 투표 데이터를 컴파일해 각 모델에 Elo 점수 산정하고 시간 단위로 업데이트하는 공개 리더보드 운영

Impact

초기 데이터 기준으로 GPT-4 Turbo가 최고 점수를 기록했으나 Llama와 Qwen 모델들이 대부분의 독점 모델을 초과 달성. Qwen 2.5 7B와 Llama 3.1 8B는 훨씬 큰 모델들과 경쟁 가능한 수준의 성능 발휘. Llama 3.1 70B와 405B가 각각 2위와 3위 기록.

Key Takeaway

평가 능력 벤치마킹에서 모델 규모와 평가 성능 간의 명확한 상관관계가 항상 성립하지 않으며, 오픈소스 모델이 적절한 아키텍처 선택과 파인튜닝을 통해 독점 모델과 경쟁할 수 있음을 실증적으로 보여준다. 인간의 직접 피드백을 통한 크라우드소싱 방식이 AI 평가자의 신뢰성 검증에 효과적인 방법임을 시사한다.


LLM 기반 평가 파이프라인을 구축하는 개발자는 Judge Arena 리더보드에서 공개될 투표 데이터와 Elo 점수 기반 순위를 참고해 평가 능력과 비용 효율성을 동시에 만족하는 모델을 선택할 수 있으며, 특히 Llama 3.1 8B/70B나 Qwen 2.5 7B/72B 같은 오픈소스 모델을 평가 베이스 모델로 채택하면 GPT-4 수준의 성능을 더 낮은 비용으로 달성 가능하다.

원문 읽기