Dev.toSymmetric Pooling으로 512K 컨텍스트 전방 패스 21배 가속 및 학습 시간 30% 단축Lighthouse Attention: The Training-Time Hierarchy That Makes Quadratic Attention Practical AgainAI/MLadvanced10 분 소요2026년 5월 19일