Inception이 AraGen 벤치마크를 279개에서 340개 QA 쌍으로 확장하고 Arabic IFEval 벤치마크를 신규 도입해 아랍어 LLM 평가 프레임워크 통합

Arabic Leaderboards: Introducing Arabic Instruction Following, Updating AraGen, and More

2025년 4월 8일9분intermediate

AI 요약

Context

아랍어 LLM 평가 체계가 분산되어 있었으며, 명령어 추종 능력을 측정할 공개 벤치마크가 존재하지 않았다. 기존 AraGen 벤치마크는 279개의 질문-답변 쌍으로 제한되어 있어 더욱 도전적인 평가가 필요했다.

Technical Solution

AraGen-03-25 데이터셋 확장: 279개 QA 쌍을 340개로 증가 (질답 ~200, 추론 70, 안전 40, 정서법/문법 분석 30)
Judge 시스템 프롬프트 개선(SP1→SP2): 소형 모델도 평가 가능하도록 명확성 강화
Arabic IFEval 벤치마크 신규 도입: 아랍어 명령어 추종 능력 평가를 위한 첫 공개 벤치마크 구현
동적 평가 사이클 도입: 3개월간 평가 데이터셋 비공개(블라인드 테스팅)로 공정성 보장
Arabic-Leaderboards Space 통합 플랫폼: MBZUAI와 협력해 AraGen-03-25와 Arabic Instruction Following을 단일 허브로 통합

Impact

상위 10개 모델의 순위 안정성: 시스템 프롬프트 변경만으로는 대형 변동 없음. o1-2024-12-17은 이전 82.67%에서 70.25%로 감소했으나 최상위 유지. gpt-4o-2024-08-06은 업데이트된 데이터셋과 프롬프트로 성능 대폭 향상. Claude 모델 간 순위 교체 발생. 상위권 모델들(2~5위)의 점수 범위: 이전 70~78%에서 현재 51~57%로 하향(더 높은 난이도 반영). Instruction Following 리더보드 표본: Claude-3.5-Sonnet 아랍어 72.5%(영어 84.7%), GPT-4o 아랍어 70.8%(영어 79.4%).

Key Takeaway

벤치마크의 동적 갱신과 투명한 데이터 공개(이전 버전 + 모델 응답)를 통해 평가 신뢰성을 확보하면서도 커뮤니티 피드백 루프를 형성할 수 있다. 비영어권 언어 평가 시스템 구축 시 멀티모달 확장성과 공정한 블라인드 평가 기간 설정이 핵심이다.

실천 포인트

아랍어 등 저자원 언어의 LLM 벤치마크를 설계할 때 3개월 블라인드 기간으로 평가 데이터셋을 보호하고 이전 버전 데이터와 모델 응답을 공개해 재현성을 높이면, 비공식 순위 조작을 방지하면서 커뮤니티 기여를 촉진할 수 있다.

태그

#Arabic NLP #LLM Evaluation #Benchmark

원문 읽기