Inception이 AraGen 벤치마크를 279개에서 340개 QA 쌍으로 확장하고 Arabic IFEval 벤치마크를 신규 도입해 아랍어 LLM 평가 프레임워크 통합
Arabic Leaderboards: Introducing Arabic Instruction Following, Updating AraGen, and More
AI 요약
Context
아랍어 LLM 평가 체계가 분산되어 있었으며, 명령어 추종 능력을 측정할 공개 벤치마크가 존재하지 않았다. 기존 AraGen 벤치마크는 279개의 질문-답변 쌍으로 제한되어 있어 더욱 도전적인 평가가 필요했다.
Technical Solution
- AraGen-03-25 데이터셋 확장: 279개 QA 쌍을 340개로 증가 (질답 ~200, 추론 70, 안전 40, 정서법/문법 분석 30)
- Judge 시스템 프롬프트 개선(SP1→SP2): 소형 모델도 평가 가능하도록 명확성 강화
- Arabic IFEval 벤치마크 신규 도입: 아랍어 명령어 추종 능력 평가를 위한 첫 공개 벤치마크 구현
- 동적 평가 사이클 도입: 3개월간 평가 데이터셋 비공개(블라인드 테스팅)로 공정성 보장
- Arabic-Leaderboards Space 통합 플랫폼: MBZUAI와 협력해 AraGen-03-25와 Arabic Instruction Following을 단일 허브로 통합
Impact
상위 10개 모델의 순위 안정성: 시스템 프롬프트 변경만으로는 대형 변동 없음. o1-2024-12-17은 이전 82.67%에서 70.25%로 감소했으나 최상위 유지. gpt-4o-2024-08-06은 업데이트된 데이터셋과 프롬프트로 성능 대폭 향상. Claude 모델 간 순위 교체 발생. 상위권 모델들(2~5위)의 점수 범위: 이전 70~78%에서 현재 51~57%로 하향(더 높은 난이도 반영). Instruction Following 리더보드 표본: Claude-3.5-Sonnet 아랍어 72.5%(영어 84.7%), GPT-4o 아랍어 70.8%(영어 79.4%).
Key Takeaway
벤치마크의 동적 갱신과 투명한 데이터 공개(이전 버전 + 모델 응답)를 통해 평가 신뢰성을 확보하면서도 커뮤니티 피드백 루프를 형성할 수 있다. 비영어권 언어 평가 시스템 구축 시 멀티모달 확장성과 공정한 블라인드 평가 기간 설정이 핵심이다.
실천 포인트
아랍어 등 저자원 언어의 LLM 벤치마크를 설계할 때 3개월 블라인드 기간으로 평가 데이터셋을 보호하고 이전 버전 데이터와 모델 응답을 공개해 재현성을 높이면, 비공식 순위 조작을 방지하면서 커뮤니티 기여를 촉진할 수 있다.