Causal Attention 기반 Token 간 관계 모델링 및 Scaled Dot-Product 최적화

Chapter 9: Single-Head Attention - Tokens Looking at Each Other

Gary Jackson2026년 4월 28일14분intermediate

AI 요약

Context

기존의 독립적 Token 처리 방식으로는 시퀀스 내 앞선 Token들의 맥락을 반영하지 못하는 한계 존재. 특히 순차적 데이터 생성 시 이전 시점의 정보가 미래에 영향을 주어야 하는 인과적 관계 모델링 필요성 대두.

Query, Key, Value 세 가지 서로 다른 Projection 레이어를 도입하여 하나의 Token을 세 가지 관점으로 분리 학습하는 유연한 구조 설계
Query와 Key의 Dot Product 연산을 통한 벡터 간 정렬도 측정으로 Token 간의 상관관계(Match)를 정량적으로 산출
Dot Product 결과값의 발산을 방지하고 Gradient 안정성을 확보하기 위해 $\sqrt{d}$(Embedding Size의 제곱근)로 나누는 Scaling 로직 적용
Softmax 함수를 통해 합계가 1인 Attention Weight를 생성하여 관련성이 높은 Token의 Value에 더 많은 가중치를 부여하는 가중 합산 구조 구현
Causal Attention 설계를 통해 현재 시점 $t$의 Token이 오직 $0$부터 $t-1$까지의 과거 Token만 참조하도록 제어하여 미래 정보 유입 차단
추론 효율성을 위해 매번 계산하지 않고 이전 시점의 Key와 Value를 저장하는 KV Cache 구조 채택

실천 포인트

1. 고차원 벡터 간 유사도 측정 시 값의 폭발을 막기 위한 Scaling Factor 적용 여부 검토

2. 동일 입력 데이터라도 목적(질의, 매칭, 값 제공)에 따라 서로 다른 Projection 레이어를 통해 특성을 분리하고 있는지 확인

3. 시퀀스 데이터 처리 시 미래 데이터가 현재에 영향을 주는 Data Leakage 방지를 위한 Causal Masking 적용 여부 점검

태그