Noise-resilient RAG 구조를 통한 VLM의 외부 지식 추론 안정성 확보

📄Paper: RORA-VLM: Robust Retrieval Augmentation for Vision Language Models

Mercy2026년 5월 29일1분advanced

AI 요약

Context

이미지 내부 정보만으로 답변이 불가능한 VQA 태스크에서 외부 지식 활용의 필요성 증대. 기존 VLM은 Retrieval 과정에서 발생하는 Noise 데이터 유입 시 추론 성능을 저하시키는 병목 지점 형성.

Technical Solution

Image-to-Entity-to-Text로 이어지는 Two-stage retrieval 설계를 통한 지식 검색 정확도 향상
WIT 데이터베이스의 3,700만 장 이미지 기반 Entity anchor 매칭 및 Google API 연동 Query 확장 로직 구현
Query-oriented visual token refinement 기법을 적용하여 질문과 무관한 Image background noise 제거
Attention score 기반의 패치 선별을 통해 핵심 Visual token만 시퀀스로 재구성하는 데이터 정제 프로세스 도입
학습 단계에서 의도적으로 Irrelevant knowledge를 주입하는 Noise-resilient training으로 모델의 정보 선별 능력 강화

실천 포인트

- RAG 시스템 설계 시 검색 결과의 Noise가 모델 성능을 저해한다면, 의도적인 Noise 주입 학습(Adversarial Training) 검토 - 멀티모달 입력 데이터 처리 시 전체 데이터를 주입하기보다 Query 기반의 Token Refinement 단계를 거쳐 컨텍스트 윈도우 효율 최적화 - 단순 키워드 검색 대신 '이미지-엔티티-텍스트'와 같은 계층적 검색 파이프라인을 통한 검색 정밀도 개선

태그

#Visual Token Refinement #VLM #VQA #RAG #Noise-resilient Training

원문 읽기