๐ง ไบบๅทฅๆบ่ฝๅๅฑๆนๅ๏ผๅฝๅๆฏๅฆๅฐๅคด๏ผ
Transformer ํ๊ณ ๊ทน๋ณต์ ์ํ SSMยทJEPA ๊ธฐ๋ฐ ์ง์ ํ์ต ์ํคํ ์ฒ๋ก์ ์ ํ
AI ์์ฝ
Context
Scaling Law์ ํ๊ณ๋ก ์ธํ ํ๋ผ๋ฏธํฐ ํ์ฅ ๋๋น ์ถ๋ก ํ์ง ํฅ์ ๊ณก์ ์ ์ฒด ํ์ ๋ฐ์. Transformer ๊ตฌ์กฐ์ ๊ณ ์ ๋ Weight์ Token ์์ธก ๊ธฐ๋ฐ ํ์ต์ผ๋ก ์ธํ ์ธ๊ณผ๊ด๊ณ ๊ฒฐ์ฌ ๋ฐ ์ค์๊ฐ ํ์ต ๋ถ๊ฐ๋ฅ ๋ฌธ์ ๋ฅผ ๋ถ์.
Technical Solution
- Attention์ $O(n^2)$ ๋ณต์ก๋๋ฅผ $O(n)$์ผ๋ก ๊ฐ์ ํ SSM ๋์ ์ ํตํ ์ ํ ์ค์บ ๋ฐ ์ํ ์ ์ด ์ต์ ํ
- Token ๊ณต๊ฐ์ด ์๋ ์ถ์ํ๋ Latent Space์์ ์ธ๊ณ ์ํ๋ฅผ ์์ธกํ๋ JEPA ๊ตฌ์กฐ ์ค๊ณ๋ฅผ ํตํ ๊ฐ๋ ์ ์ดํด๋ ํฅ์
- ์์ธก ์ค์ฐจ ๊ธฐ๋ฐ์ Active Inference ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ์ฌ ์์คํ ์ด ์์จ์ ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ ํ์ ๋ฃจํ ํ์ต ๊ตฌํ
- SSM์ ์ง์์ Hidden State์ JEPA์ Latent Prediction์ ๊ฒฐํฉํ Online Learner ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- RAG์ ๋จ์ ์ฐธ์กฐ๋ฅผ ๋์ด ์ค์ ๋๊ตฌ ํธ์ถ ๊ฒฐ๊ณผ(Feedback)๋ฅผ ํตํด Weight๋ฅผ ์ค์๊ฐ ๊ฐฑ์ ํ๋ Read-Write ์ง๋ฅํ ์์คํ ์ค๊ณ
์ค์ฒ ํฌ์ธํธ
- ๋จ์ ํ๋ผ๋ฏธํฐ ํ์ฅ๋ณด๋ค SSM+Attention ํ์ด๋ธ๋ฆฌ๋ ๊ตฌ์กฐ๋ฅผ ํตํ ์ถ๋ก ํจ์จ์ฑ ๊ฒํ - Token-level ์์ธก์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด Latent Space ๊ธฐ๋ฐ์ ์ํ ์์ธก ๋ชจ๋ธ ๋์ ๊ณ ๋ ค - ์ ์ ๋ชจ๋ธ ๋ฐฐํฌ ๋ฐฉ์์์ ๋ฒ์ด๋ Feedback-loop ๊ธฐ๋ฐ์ ์ง์์ ์จ๋ผ์ธ ํ์ต ํ์ดํ๋ผ์ธ ์ค๊ณ - ์์คํ ์ ๋ฅ๋์ ์ ๋ณด ์ต๋์ ์ํ ์์ธก ์ค์ฐจ ๊ธฐ๋ฐ์ Active Inference ํธ๋ฆฌ๊ฑฐ ๊ตฌํ