LlamaIndex가 vdr-2b-multi-v1 멀티랭귀지 임베딩 모델을 개발해 OCR 없이 5개 언어의 시각 문서 검색 지원 및 3배 빠른 추론 속도 달성

Visual Document Retrieval Goes Multilingual

2025년 1월 10일8분intermediate

AI 요약

Context

기존 시각 문서 검색(Visual Document Retrieval) 시스템은 OCR, 데이터 추출 파이프라인, 청킹 단계가 필수였고, 멀티랭귀지 고품질 학습 데이터가 매우 부족했다. 현재 공개된 합성 멀티모달 시각 문서 검색 데이터셋의 최대 규모가 약 50k 샘플 수준이었다.

Technical Solution

멀티랭귀지 임베딩 모델 기반 구조 변경: MrLight/dse-qwen2-2b-mrl-v1을 기반으로 단일 벡터로 문서 페이지 스크린샷 인코딩해 OCR 불필요화
대규모 합성 학습 데이터 구축: 500k 고품질 멀티랭귀지 쿼리-이미지 샌플로 구성된 vdr-multilingual-train 데이터셋 공개 (기존 대비 10배 규모)
페이지 레이아웃 분석 기반 샘플링: 문서 레이아웃 분석 모델으로 텍스트 전용/시각 전용/혼합 페이지 분류 후 균등 분배해 약 100k 페이지 샘플링
멀티 VLM 기반 합성 쿼리 생성: Gemini-1.5-Pro와 Qwen2-VL-72B로 특정/일반 쿼리 생성 후 특정 쿼리만 학습에 사용
쿼리 정제 및 하드 네거티브 마이닝 적용: 문법 검증, 마크다운 제거, 단일 질문 강제, 그라운딩 표현 제거 등 엄격한 필터링
Matryoshka Representation Learning(MRL) 도입: 벡터 크기를 3배 축소 가능하면서 98% 임베딩 품질 유지
바이너리 양자화 적용: 1536 차원 바이너리 벡터로 바이트당 10배 축소하면서 97% 검색 성능 유지
이미지 패치 수 최적화: 2560 패치에서 768 패치로 감소시켜도 성능 유지

Impact

추론 속도 3배 향상 (768 이미지 패치 기반 모델이 2560 패치 기반 모델 성능 초과)
벡터 크기 3배 축소 시 98% 임베딩 품질 유지
1536 차원 바이너리 벡터로 10배 용량 감소하면서 97% 검색 성능 유지
1536 차원 바이너리 벡터가 1536 차원 float 벡터와 거의 동일한 성능 달성
VRAM 사용량 대폭 감소
이탈리아어 쿼리로 독일어 문서 검색 등 교차언어 검색 지원 (5개 언어: 이탈리아어, 스페인어, 영어, 프랑스어, 독일어)

Key Takeaway

시각 문서 검색에서 고품질 다국어 합성 데이터셋과 Matryoshka Representation Learning, 바이너리 양자화 조합 적용으로 OCR 제거하면서도 추론 속도 3배 향상 및 벡터 용량 10배 감소를 동시에 달성 가능하다. 페이지 레이아웃 분석 기반 전략적 샘플링이 모델의 다양한 도메인 적응력을 크게 향상시킨다.

실천 포인트

멀티모달 문서 검색 시스템을 구축하는 엔지니어는 vdr-2b-multi-v1 모델과 함께 Matryoshka Representation Learning으로 벡터 크기를 3배 축소하고 바이너리 양자화를 적용하면 저용량 환경에서도 고성능 검색을 구현할 수 있으며, 페이지 레이아웃 분석으로 학습 데이터를 텍스트/시각/혼합 유형별로 균등하게 샘플링하면 실제 도메인에서의 검색 정확도를 향상시킬 수 있다.

태그

#Quantization #Multilingual AI #Visual-Document-Retrieval #Multimodal-Embedding

원문 읽기