Dot Product와 Softmax 기반 Encoder-Decoder Attention 메커니즘 구현

Understanding Transformers Part 14: Calculating Encoder–Decoder Attention

Rijul Rajesh2026년 4월 26일1분intermediate

AI 요약

Context

Decoder가 출력 단어를 생성할 때 Encoder의 입력 정보 중 중요한 부분에 집중해야 하는 필요성 제기. 단일 텍스트 시퀀스 내의 관계를 넘어 서로 다른 두 시퀀스 간의 연관성을 정량적으로 계산하는 구조적 설계 필요.

실천 포인트

1. Query와 Key의 차원을 일치시켜 Dot Product 연산이 가능하도록 설계했는가

2. Softmax를 통해 가중치의 총합을 1로 정규화하여 확률 분포로 변환했는가

3. 특정 토큰에 대한 Attention 집중도가 의도한 대로 할당되는지 검증했는가

태그