Kusupati et al.์ด Matryoshka Representation Learning ๋ฐฉ์์ผ๋ก ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ์ต์์ผ ์๋ณธ ํฌ๊ธฐ์ 8.3%๋ง ์ฌ์ฉํ๋ฉด์ 98.37% ์ฑ๋ฅ ์ ์ง
๐ช Introduction to Matryoshka Embedding Models
AI ์์ฝ
Context
์ต์ ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ํฅ์์ ์ํด ์ ์ ๋์ ์ฐจ์(dimension)์ ์ฌ์ฉํ๊ณ ์์ผ๋, ์ด๋ ๊ฒ์์ด๋ ๋ถ๋ฅ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ ์ฅ์ ๋น์ฉ๊ณผ ์ฒ๋ฆฌ ์๋๋ฅผ ์ฆ๊ฐ์ํจ๋ค.
Technical Solution
- Matryoshka ํ์ต ๋ฐฉ์ ๋์ : 768, 512, 256, 128, 64 ๋ฑ ๋ค์ํ ์ฐจ์์์ ๋์์ ์์คํจ์๋ฅผ ์ ์ฉํ์ฌ ์ค์ ์ ๋ณด๋ฅผ ์๋ฒ ๋ฉ ์๋ถ๋ถ์ ์ง์ค์ํด
- Sentence Transformers ํ๋ ์์ํฌ์ MatryoshkaLoss ํ์ฉ: CoSENTLoss ๊ฐ์ ๊ธฐ์กด ์์คํจ์๋ฅผ ์ฌ๋ฌ ์ฐจ์์์ ๋ณ๋ ฌ๋ก ๊ณ์ฐํ๊ณ ๊ฐ์ค์น๋ฅผ ์ ์ฉํ์ฌ ํฉ์ฐ
- ์ฐจ์ ์ถ์ ๊ธฐ๋ฐ 2๋จ๊ณ ๊ฒ์ ์ ๋ต: ์์ ์ฐจ์์ผ๋ก ๋น ๋ฅด๊ฒ ํ๋ณด๋ฅผ shortlistํ ํ ๋จ์ ์๋ฒ ๋ฉ์ ์ ์ฒด ์ฐจ์์ผ๋ก ์ฌ์ฒ๋ฆฌ
- ์๋ฒ ๋ฉ ์๋ถ๋ถ์ ์ ๋ณด ์ง์ค: ๋ชจ๋ธ์ด ์๋ณธ ์๋ฒ ๋ฉ์ ์ด๋ฐ ์น์(dimension)์ ๊ฐ์ฅ ์ค์ํ ์ ๋ณด๋ฅผ ๋ฐฐ์นํ๋๋ก ํ์ต๋์ด ์ ๋จ(truncation) ์์๋ ์ฑ๋ฅ ์์ค ์ต์ํ
Impact
- STSBenchmark ํ ์คํธ ์ ์์ ์๋ณธ ์๋ฒ ๋ฉ ํฌ๊ธฐ์ 8.3% ์ฌ์ฉ ์ Matryoshka ๋ชจ๋ธ์ 98.37% ์ฑ๋ฅ ์ ์ง, ํ์ค ๋ชจ๋ธ์ 96.46% ์ฑ๋ฅ๋ง ์ ์ง
- Matryoshka ๋ชจ๋ธ์ด ๋ชจ๋ ์ฐจ์์์ ํ์ค ๋ชจ๋ธ๋ณด๋ค ๋์ Spearman ์ ์ฌ๋ ๋ฌ์ฑ
- ํ์ต ์๊ฐ์ ์ธก์ ๊ฐ๋ฅํ ์ค๋ฒํค๋ ์์
Key Takeaway
์๋ฒ ๋ฉ ์ฐจ์์ ๊ฐ๋ณ์ ์ผ๋ก ์ค์ ๊ฐ๋ฅํ ๋ชจ๋ธ ์ค๊ณ๋ ์ ์ฅ์ ๋น์ฉ, ์ฒ๋ฆฌ ์๋, ์ฑ๋ฅ ๊ฐ์ ์ ํ์ง๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ๋ค์ํ ๋ฐฐํฌ ํ๊ฒฝ์์ ์ค์๊ฐ ์กฐ์ ๊ณผ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
์ค์ฒ ํฌ์ธํธ
๋๊ท๋ชจ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ๊ฒ์ ์์คํ ์ ์ด์ํ๋ ์์ง๋์ด๋ค์ Sentence Transformers์์ MatryoshkaLoss๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ํ์ต์ํค๋ฉด, ๋ฐฐํฌ ํ ์ง์ฐ์๊ฐ๊ณผ ์ ์ฅ์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์๋ฒ ๋ฉ ์ฐจ์์ ์กฐ์ ํ๋ฉด์ ์ฑ๋ฅ์ 95% ์ด์ ์ ์งํ ์ ์๋ค.