ํผ๋๋ก ๋์๊ฐ๊ธฐ
Dev.toAI/ML
์๋ฌธ ์ฝ๊ธฐ
Asymmetric Retrieval ํด๊ฒฐ์ ์ํ HyDE ๊ธฐ๋ฐ ๊ฐ์ ๋ฌธ์ ์๋ฒ ๋ฉ ์ ๋ต
Beyond Keywords: Mastering HyDE for Smarter Retrieval ๐ง
AI ์์ฝ
Context
์ฌ์ฉ์์ ์ผ์์ด ์ฟผ๋ฆฌ์ ์ ๋ฌธ ์ฉ์ด ์ค์ฌ์ ๋ฌธ์ ๊ฐ ๋ฒกํฐ ๊ฑฐ๋ฆฌ ์ฐจ์ด๋ก ์ธํ Asymmetric Retrieval ๋ฌธ์ ๋ฐ์. ๋จ์ Vector Search ๊ธฐ๋ฐ์ RAG ์์คํ ์ ํค์๋ ๋ถ์ผ์น ์ ๊ด๋ จ ๋ฌธ์ ์ถ์ถ ์คํจ๋ผ๋ ํ๊ณ๋ฅผ ๊ฐ์ง.
Technical Solution
- Few-shot Prompting์ ํตํด ์ฌ์ฉ์ ์ฟผ๋ฆฌ๋ฅผ ์ ๋ฌธ ๋ฌธ์ ์คํ์ผ์ ๊ฐ์ ๋ต๋ณ(Hypothetical Document)์ผ๋ก ๋ณํํ๋ ๋จ๊ณ ์ถ๊ฐ
- ์ฟผ๋ฆฌ ์์ฒด๋ฅผ ๊ฒ์ํ๋ ๋์ LLM์ด ์์ฑํ ๊ฐ์ ๋ฌธ์์ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ์ฌ Vector Store์์ ์ ์ฌ๋ ๊ฒ์ ์ํ
- ์ง๋ฌธ(Short/Informal)๊ณผ ๋ต๋ณ(Long/Professional)์ ๋ถ๊ท ํ์ Symmetric ๊ตฌ์กฐ๋ก ์ ํํ์ฌ ๊ฒ์ ์ ๋ฐ๋ ํฅ์
- ์ ๋ฌธ ๋ถ์ผ(Legal ๋ฑ)์ Linguistic DNA๋ฅผ ๋ฐ์ํ ํ๋กฌํํธ ์ค๊ณ๋ฅผ ํตํด ๋๋ฉ์ธ ํนํ ๊ฒ์ ์ต์ ํ
- LLM์ ์์ฑ ๋ฅ๋ ฅ๊ณผ Embedding ๋ชจ๋ธ์ ์ ์ฌ๋ ๊ณ์ฐ ๋ฅ๋ ฅ์ ๊ฒฐํฉํ 2๋จ๊ณ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
์ค์ฒ ํฌ์ธํธ
- ์ฌ์ฉ์์ ๋ฌธ์ ๊ฐ์ ์ ๋ฌธ ์ฉ์ด ๊ฒฉ์ฐจ๊ฐ ํฐ ๋๋ฉ์ธ์ธ์ง ํ์ธ - ์ฟผ๋ฆฌ ๋น ์ถ๊ฐ LLM ํธ์ถ๋ก ์ธํ 1~2์ด์ Latency ์ฆ๊ฐ ๋ฐ ํ ํฐ ๋น์ฉ ์ฆ๊ฐ๋ถ ๊ฒํ - ์์น ๋ฐ์ดํฐ๋ ์ ํํ ์ฌ์ค ๊ด๊ณ ๋ฃฉ์ ์ด ์ฃผ ๋ชฉ์ ์ธ ๊ฒฝ์ฐ Hallucination ์ํ์ผ๋ก ์ธํด ๋์ ๋ฐฐ์ - Few-shot ์์๋ฅผ ํตํด LLM์ด ์์ฑํ ๊ฐ์ ๋ฌธ์์ ์คํ์ผ์ ์ ๊ตํ๊ฒ ์ ์ด