Noise-resilient RAG ๊ตฌ์กฐ๋ฅผ ํตํ VLM์ ์ธ๋ถ ์ง์ ์ถ๋ก ์์ ์ฑ ํ๋ณด
๐Paper: RORA-VLM: Robust Retrieval Augmentation for Vision Language Models
AI ์์ฝ
Context
์ด๋ฏธ์ง ๋ด๋ถ ์ ๋ณด๋ง์ผ๋ก ๋ต๋ณ์ด ๋ถ๊ฐ๋ฅํ VQA ํ์คํฌ์์ ์ธ๋ถ ์ง์ ํ์ฉ์ ํ์์ฑ ์ฆ๋. ๊ธฐ์กด VLM์ Retrieval ๊ณผ์ ์์ ๋ฐ์ํ๋ Noise ๋ฐ์ดํฐ ์ ์ ์ ์ถ๋ก ์ฑ๋ฅ์ ์ ํ์ํค๋ ๋ณ๋ชฉ ์ง์ ํ์ฑ.
Technical Solution
- Image-to-Entity-to-Text๋ก ์ด์ด์ง๋ Two-stage retrieval ์ค๊ณ๋ฅผ ํตํ ์ง์ ๊ฒ์ ์ ํ๋ ํฅ์
- WIT ๋ฐ์ดํฐ๋ฒ ์ด์ค์ 3,700๋ง ์ฅ ์ด๋ฏธ์ง ๊ธฐ๋ฐ Entity anchor ๋งค์นญ ๋ฐ Google API ์ฐ๋ Query ํ์ฅ ๋ก์ง ๊ตฌํ
- Query-oriented visual token refinement ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ง๋ฌธ๊ณผ ๋ฌด๊ดํ Image background noise ์ ๊ฑฐ
- Attention score ๊ธฐ๋ฐ์ ํจ์น ์ ๋ณ์ ํตํด ํต์ฌ Visual token๋ง ์ํ์ค๋ก ์ฌ๊ตฌ์ฑํ๋ ๋ฐ์ดํฐ ์ ์ ํ๋ก์ธ์ค ๋์
- ํ์ต ๋จ๊ณ์์ ์๋์ ์ผ๋ก Irrelevant knowledge๋ฅผ ์ฃผ์ ํ๋ Noise-resilient training์ผ๋ก ๋ชจ๋ธ์ ์ ๋ณด ์ ๋ณ ๋ฅ๋ ฅ ๊ฐํ
์ค์ฒ ํฌ์ธํธ
- RAG ์์คํ ์ค๊ณ ์ ๊ฒ์ ๊ฒฐ๊ณผ์ Noise๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ํดํ๋ค๋ฉด, ์๋์ ์ธ Noise ์ฃผ์ ํ์ต(Adversarial Training) ๊ฒํ - ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ ํ๊ธฐ๋ณด๋ค Query ๊ธฐ๋ฐ์ Token Refinement ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ์ปจํ ์คํธ ์๋์ฐ ํจ์จ ์ต์ ํ - ๋จ์ ํค์๋ ๊ฒ์ ๋์ '์ด๋ฏธ์ง-์ํฐํฐ-ํ ์คํธ'์ ๊ฐ์ ๊ณ์ธต์ ๊ฒ์ ํ์ดํ๋ผ์ธ์ ํตํ ๊ฒ์ ์ ๋ฐ๋ ๊ฐ์