ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
๐Ÿง  ไบบๅทฅๆ™บ่ƒฝๅ‘ๅฑ•ๆ–นๅ‘๏ผšๅฝ“ๅ‰ๆ˜ฏๅฆๅˆฐๅคด๏ผŸ
Dev.toDev.to
AI/ML

๐Ÿง  ไบบๅทฅๆ™บ่ƒฝๅ‘ๅฑ•ๆ–นๅ‘๏ผšๅฝ“ๅ‰ๆ˜ฏๅฆๅˆฐๅคด๏ผŸ

Transformer ํ•œ๊ณ„ ๊ทน๋ณต์„ ์œ„ํ•œ SSMยทJEPA ๊ธฐ๋ฐ˜ ์ง€์† ํ•™์Šต ์•„ํ‚คํ…์ฒ˜๋กœ์˜ ์ „ํ™˜

zengbao yu2026๋…„ 6์›” 26์ผ2๋ถ„advanced

Context

Scaling Law์˜ ํ•œ๊ณ„๋กœ ์ธํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ํ™•์žฅ ๋Œ€๋น„ ์ถ”๋ก  ํ’ˆ์งˆ ํ–ฅ์ƒ ๊ณก์„  ์ •์ฒด ํ˜„์ƒ ๋ฐœ์ƒ. Transformer ๊ตฌ์กฐ์˜ ๊ณ ์ •๋œ Weight์™€ Token ์˜ˆ์ธก ๊ธฐ๋ฐ˜ ํ•™์Šต์œผ๋กœ ์ธํ•œ ์ธ๊ณผ๊ด€๊ณ„ ๊ฒฐ์—ฌ ๋ฐ ์‹ค์‹œ๊ฐ„ ํ•™์Šต ๋ถˆ๊ฐ€๋Šฅ ๋ฌธ์ œ๋ฅผ ๋ถ„์„.

Technical Solution

  • Attention์˜ $O(n^2)$ ๋ณต์žก๋„๋ฅผ $O(n)$์œผ๋กœ ๊ฐœ์„ ํ•œ SSM ๋„์ž…์„ ํ†ตํ•œ ์„ ํ˜• ์Šค์บ” ๋ฐ ์ƒํƒœ ์ „์ด ์ตœ์ ํ™”
  • Token ๊ณต๊ฐ„์ด ์•„๋‹Œ ์ถ”์ƒํ™”๋œ Latent Space์—์„œ ์„ธ๊ณ„ ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” JEPA ๊ตฌ์กฐ ์„ค๊ณ„๋ฅผ ํ†ตํ•œ ๊ฐœ๋…์  ์ดํ•ด๋„ ํ–ฅ์ƒ
  • ์˜ˆ์ธก ์˜ค์ฐจ ๊ธฐ๋ฐ˜์˜ Active Inference ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ ์šฉํ•˜์—ฌ ์‹œ์Šคํ…œ์ด ์ž์œจ์ ์œผ๋กœ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ํ์‡„ ๋ฃจํ”„ ํ•™์Šต ๊ตฌํ˜„
  • SSM์˜ ์ง€์†์  Hidden State์™€ JEPA์˜ Latent Prediction์„ ๊ฒฐํ•ฉํ•œ Online Learner ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•
  • RAG์˜ ๋‹จ์ˆœ ์ฐธ์กฐ๋ฅผ ๋„˜์–ด ์‹ค์ œ ๋„๊ตฌ ํ˜ธ์ถœ ๊ฒฐ๊ณผ(Feedback)๋ฅผ ํ†ตํ•ด Weight๋ฅผ ์‹ค์‹œ๊ฐ„ ๊ฐฑ์‹ ํ•˜๋Š” Read-Write ์ง€๋Šฅํ˜• ์‹œ์Šคํ…œ ์„ค๊ณ„

- ๋‹จ์ˆœ ํŒŒ๋ผ๋ฏธํ„ฐ ํ™•์žฅ๋ณด๋‹ค SSM+Attention ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•œ ์ถ”๋ก  ํšจ์œจ์„ฑ ๊ฒ€ํ†  - Token-level ์˜ˆ์ธก์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด Latent Space ๊ธฐ๋ฐ˜์˜ ์ƒํƒœ ์˜ˆ์ธก ๋ชจ๋ธ ๋„์ž… ๊ณ ๋ ค - ์ •์  ๋ชจ๋ธ ๋ฐฐํฌ ๋ฐฉ์‹์—์„œ ๋ฒ—์–ด๋‚˜ Feedback-loop ๊ธฐ๋ฐ˜์˜ ์ง€์†์  ์˜จ๋ผ์ธ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ์„ค๊ณ„ - ์‹œ์Šคํ…œ์˜ ๋Šฅ๋™์  ์ •๋ณด ์Šต๋“์„ ์œ„ํ•œ ์˜ˆ์ธก ์˜ค์ฐจ ๊ธฐ๋ฐ˜์˜ Active Inference ํŠธ๋ฆฌ๊ฑฐ ๊ตฌํ˜„

์›๋ฌธ ์ฝ๊ธฐ