피드로 돌아가기
Introducing ConTextual: How well can your Multimodal model jointly reason over text and image in text-rich scenes?
Hugging Face BlogHugging Face Blog
AI/ML

UCLA 연구팀이 ConTextual 데이터셋과 리더보드를 개발해 멀티모달 LMM 모델들의 텍스트-이미지 맥락 추론 능력 평가

Introducing ConTextual: How well can your Multimodal model jointly reason over text and image in text-rich scenes?

2024년 3월 5일10intermediate

Context

기존 LMM 평가는 주로 일반적인 질문-응답 형식의 명령에 대한 응답 능력에 집중했으나, 지도 네비게이션, 밈 이해, 웹페이지 해석 등 실제 응용 환경에서 필요한 텍스트-이미지 맥락 추론 능력을 평가하는 벤치마크가 부재했다.

Technical Solution

  • ConTextual 데이터셋 구성: 506개의 챌렝징 명령어와 텍스트-이미지 맥락 추론이 필수적인 문제로 구성 (Time Reading, Shopping, Navigation, Abstract Scenes, Mobile Application, Webpages, Infographics, Miscellaneous Natural Scenes 8개 도메인 포함)
  • 평가 데이터 형식: 검증 세트 100개 인스턴스(이미지, 명령어, 참조 응답 포함) + 테스트 세트 506개(이미지, 명령어만 공개)
  • 자동 평가 방식: GPT-4를 judge로 활용해 명령어, 참조 응답, 모델 예측 응답을 입력받아 성공/실패 판정 (인간 판정과의 상관성이 가장 높음)
  • 13개 모델 벤치마킹: 증강된 LLM 접근법(GPT-4 + OCR/캡션), 폐쇄형 LMM(GPT-4V, Gemini-Vision-Pro), 오픈소스 LMM(LLaVA-v1.5-13B, ShareGPT4V-7B 등) 3개 카테고리별 성능 비교
  • 커뮤니티 리더보드 공개: 모델 제출 및 검증 세트/테스트 세트 성능 추적 인프라 구축

Impact

증강된 LLM 접근법(GPT-4 + Layout-aware OCR + Caption)의 인간 승인률 17.2% / 오픈소스 LMM들이 추상 시나리오와 자연 장면에서는 인간 수준 성능을 보이나 시간 읽기, 인포그래픽, 네비게이션 도메인에서는 현저한 성능 격차 발생 / GPT-4V가 전체 13개 모델 중 최고 성능이지만 시간 관련 작업에서는 인간에 밀림

Key Takeaway

멀티모달 LMM이 텍스트-이미지 공동 추론을 수행하려면 정밀한 시각 인식, 정확한 이미지 설명, 미세한 비전-언어 정렬이 필요하며, 현존 모델들의 훈련 데이터 다양성 부족이 도메인별 성능 편차의 주요 원인이다.


멀티모달 모델을 평가하거나 개선하는 팀에서 ConTextual 벤치마크를 활용하면, 추상 시나리오뿐 아니라 시간 읽기, 인포그래픽, 네비게이션 등 실제 응용 도메인에서의 모델 성능 격차를 정량화해 훈련 데이터 수집 전략과 비전-언어 정렬 개선 방향을 구체적으로 설정할 수 있다.

원문 읽기