Meta가 GAIA 벤치마크 후속으로 Gaia2와 ARE 프레임워크를 출시해 1000개 신규 시나리오로 AI 에이전트의 읽기-쓰기 상호작용 및 실세계 복잡도 평가 가능

Gaia2 and ARE: Empowering the community to study agents

2025년 9월 22일12분intermediate

AI 요약

Context

기존 GAIA 벤치마크는 읽기 전용이며 정보 검색 작업만 평가했고, 2년 경과로 모델들이 상위 난이도 문제를 거의 해결했다. 현존 평가 환경은 페이지 로딩 실패, 예상치 못한 이벤트 발생, 비동기 혼란 등 현실 세계 조건을 반영하지 못했다.

Technical Solution

Gaia2 벤치마크를 읽기-쓰기 구조로 전환: 1000개 인간 제작 시나리오로 다중 단계 명령 따르기, 도구 사용, 모호한 쿼리 처리, 시간 민감 작업 평가
6개 태스크 그룹으로 에이전트 능력 세분화: Execution(다중 단계 도구 사용), Search(교차 출처 정보 수집), Ambiguity Handling(충돌 요청 해명), Adaptability(시뮬레이션 변화 대응), Time/temporal Reasoning(시간 제약 행동), Noise Tolerance(API 실패 견디기)
ARE 프레임워크로 스마트폰 목업 환경 구현: Email, Calendar, Contacts, Shopping, FileSystem 등 실제 애플리케이션 시뮬레이션 및 101개 도구 제공
모든 에이전트 상호작용을 구조화된 추적 데이터로 자동 기록: 도구 호출, API 응답, 모델 사고 과정, 응답 지연, 사용자 상호작용을 JSON으로 내보내기 가능
통일된 평가 설정 도입: ReAct 루프, 온도 0.5, 토큰 생성 한계 16K, Llama 3.3 70B 기반 모델-판사 평가 및 정확도 일치 평가

Impact

GPT-5(높은 추론 모드)가 2025년 9월 기준 최고 점수 달성, 최고 성능 오픈소스 모델은 Kimi K2. 단순 도구 호출 실행과 기본 검색은 최고 성능 모델들에 의해 거의 해결됨.

Key Takeaway

AI 에이전트 개발팀은 구조화된 실행 추적, 명확한 실패 조건, 시간 제약 시나리오를 통합한 벤치마크를 도입하면 현실 세계 환경에서 에이전트의 신뢰성과 적응성을 정확하게 측정하고 디버깅할 수 있다.

실천 포인트

AI 에이전트 개발 팀은 Gaia2와 ARE를 사용해 API 실패 상황, 모호한 명령어, 시간 민감한 작업을 포함한 시뮬레이션 환경에서 에이전트를 평가하면, 추적 데이터(JSON 내보내기)를 통해 도구 호출 순서, 모델 사고 과정, 실패 원인을 정확하게 분석할 수 있고 프로덕션 배포 전 현실 세계 복잡도에 대한 준비도를 검증할 수 있다.

태그

#Gaia2 #ARE Framework #Agent Evaluation #AI Testing #Benchmark

원문 읽기