Artificial Analysis가 45,000건의 인간 선호도 데이터와 ELO 스코어링으로 Text-to-Image 모델 랭킹 시스템 구축

Launching the Artificial Analysis Text to Image Leaderboard & Arena

2024년 6월 6일6분intermediate

AI 요약

Context

이미지 생성 모델 품질 평가는 인간의 미적 선호도 편차로 인해 객관적 지표로는 비교가 어려웠으며, 전통적 평가 방식은 언어 모델 평가보다 훨씬 복잡했다. Midjourney, DALL·E, Stable Diffusion 등 다양한 오픈소스 및 상용 모델들의 상대적 성능을 파악할 방법이 부재했다.

Technical Solution

크라우드소싱 기반 인간 선호도 수집: Image Arena에서 700+ 이미지를 각 모델당 생성하고 사용자에게 프롬프트 대비 더 나은 이미지를 선택하게 함
ELO 스코어 계산: 45,000건의 인간 선호도 데이터에 대한 회귀 분석을 통해 각 모델의 ELO 스코어 산출
다양한 평가 카테고리 적용: 인물 초상, 그룹 사진, 동물, 자연, 미술 등 700+ 프롬프트로 광범위한 사용 사례 커버
Hugging Face Spaces 기반 공개 랭킹: Text-to-Image Leaderboard를 누구나 접근 가능한 웹 인터페이스로 제공
개인화된 랭킹 제공: 사용자가 30개 이미지 투표 후 자신의 선호도 기반 개인 랭킹 확인 가능

Impact

DALL·E 2는 1년 전 최강자였으나 현재는 Image Arena에서 25% 이하의 선택률로 하락했고, 오픈소스 모델 Playground AI v2.5가 OpenAI DALL·E 3를 능가하는 순위에 도달했다.

실천 포인트

AI 모델 평가 시스템을 구축하는 팀에서는 45,000건 규모의 크라우드소스 데이터와 ELO 스코어링을 결합하면 수백 가지 사용 케이스에 걸쳐 객관적인 모델 간 비교 기준을 확보할 수 있다.

태그

#ELO Scoring #Text-to-Image #Crowdsourcing #Model Evaluation

원문 읽기