피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Show GN: VLM은 한국 공공기관 문서를 얼마나 잘 읽을까? KOLongDoc 벤치마크 공개
한국어 공공문서 특화 Multi-page VLM 평가 벤치마크 KOLongDoc 공개
AI 요약
Context
기존 한국어 VLM 벤치마크의 OCR 및 단일 이미지 이해 중심 평가 체계로 인한 한계 발생. 수십 페이지 규모의 고해상도 문서 내 정보 연결 및 Long-context 이해 능력을 정밀하게 측정할 수 있는 검증 도구 부재.
Technical Solution
- 한국 공공기관 문서 기반의 도메인 특화 데이터셋 구축을 통한 실효성 확보
- 여러 페이지에 분산된 정보를 종합하여 답변을 도출하는 Multi-hop QA 구조 설계
- 고해상도 Multi-page 입력을 처리하는 VLM의 문서 이해 능력 평가 메커니즘 도입
- 총 200개의 정교한 평가 문항을 통한 모델별 추론 성능 정량화
- HuggingFace 및 GitHub 오픈소스로 공개하여 VLM 평가 표준화 기반 마련
실천 포인트
VLM 도입 시 단일 이미지 인식률 외에 Multi-page Context Window 처리 능력과 문서 내 정보 간의 연관 관계를 파악하는 Multi-hop 추론 성능을 반드시 검증할 것