피드로 돌아가기
PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험
GeekNewsGeekNews
AI/ML

PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험

Gemini 임베딩 실험으로 PDF 논문 RAG에서 이미지 인덱싱이 텍스트 인덱싱보다 높은 검색 성능(MRR 0.719 vs 0.631)을 달성한 결과 확인

230kimi2026년 3월 31일1intermediate

Context

기존 PDF RAG 파이프라인은 텍스트 추출 후 벡터화하는 방식 중심이다. 학술 논문은 SEM 사진, 그래프 곡선, 공간 배치 등 시각 정보가 풍부하나 텍스트 임베딩에 반영되지 않는 비율이 36%에 달한다.

Technical Solution

  • Gemini embedding-2-preview 활용 → 텍스트와 이미지의 네이티브 멀티모달 임베딩 생성
  • 18개 텍스트 쿼리 → 텍스트 인덱스, 이미지 인덱스, Multi 임베딩 인덱스별 MRR 성능 비교
  • 동일 페이지 텍스트↔이미지 → 코사인 유사도 평균 0.642 측정
  • 동일 문서 내 텍스트→이미지 크로스모달 검색 → Hit@5 0%로 실패 확인

Impact

이미지 인덱스 MRR 0.719, 텍스트 인덱스 MRR 0.631로 이미지 인덱싱이 13.9% 높은 검색 정확도 달성. 텍스트+이미지 Multi 임베딩은 MRR 0.650으로 이미지 단독보다 9.6% 낮음.

Key Takeaway

Figure가 많은 문서에서 이미지 인덱싱이 텍스트 인덱싱보다 유리하며, "일단 텍스트 뽑고 벡터화"라는 RAG 기본값을 재고할 필요가 있다.


Figure 비율이 높은 PDF 논문 RAG에서 Gemini 멀티모달 임베딩의 이미지 인덱스를 기본 인덱스로 사용 시 텍스트 단독 대비 검색 성능이 13.9% 향상되나, 텍스트+이미지 Multi 임베딩은 오히려 성능 저하를 야기한다.

원문 읽기