Dot-Product Attention의 숨겨진 Norm Bias와 RBF 기반 해결책

RBF Attention Reveals Dot‑Product's Hidden Norm Bias

Simon Paxton2026년 4월 2일8분advanced

AI 요약

Context

Standard Dot-Product Attention 구조 내 Key의 큰 Norm이 스코어를 지배하는 Magnitude Bullying 현상 발생. 특정 토큰이 확률 질량을 독점하는 Attention Sinks 현상은 이러한 스코어링 규칙의 부작용으로 분석됨.

Technical Solution

거리 기반 스코어링 방식인 RBF Attention 도입을 통한 유클리드 공간 내 실제 근접도 기반 유사도 측정
RBF Attention을 Dot-Product Attention과 Key에 대한 L2 Penalty 결합 형태로 재정의하여 수식적 등가성 확보
Key Norm의 무분별한 증가를 억제하여 모델이 메트릭적으로 의미 있는 클러스터 표현을 학습하도록 유도
Selectivity 제어 권한을 Key에서 Query 중심으로 이동시켜 특정 토큰의 과도한 지배력 제거
FlexAttention의 score_mod API를 활용해 커스텀 스코어 로직을 작성하고 FlashAttention 수준의 fused kernel로 컴파일하는 최적화 전략
Triton 커널 직접 구현을 통해 $N \times N$ 거리 행렬의 materialized 메모리 오버헤드를 방지하는 타일링 로직 적용

Key Takeaway

Attention 메커니즘의 성능은 단순한 수식 선택이 아니라 하드웨어 가속기(Fused Kernels)와 위치 임베딩(RoPE) 등 전체 스택의 최적화 방향에 종속됨. 새로운 지표 도입보다 기존 SDPA에 특정 Inductive Bias를 주입하는 진단적 접근이 엔지니어링 비용 효율적임.

실천 포인트

Attention Sink 현상 해결이나 Norm 제어가 필요할 때 전체 아키텍처 교체 대신 FlexAttention을 통해 Key L2 Penalty를 실험적으로 적용할 것

태그

#Attention_Sink #Dot_Product_Attention #FlexAttention #RBF_Attention #Norm_Penalty

원문 읽기