피드로 돌아가기
Dev.toAI/ML
원문 읽기
Dot Product와 Softmax 기반 Encoder-Decoder Attention 메커니즘 구현
Understanding Transformers Part 14: Calculating Encoder–Decoder Attention
AI 요약
Context
Decoder가 출력 단어를 생성할 때 Encoder의 입력 정보 중 중요한 부분에 집중해야 하는 필요성 제기. 단일 텍스트 시퀀스 내의 관계를 넘어 서로 다른 두 시퀀스 간의 연관성을 정량적으로 계산하는 구조적 설계 필요.
Technical Solution
- Decoder의 토큰을 기반으로 한 Query 벡터 생성
- Encoder 출력값 전체를 활용한 Key 벡터 집합 구축
- Query와 Key 간의 Dot Product 연산을 통한 입력 단어별 Similarity 측정
- Softmax 함수 적용으로 각 입력 단어에 대한 Attention Weight 할당
- 특정 입력 단어에 100% 가중치를 부여하여 출력 결정의 집중도를 제어하는 가중치 메커니즘 적용
실천 포인트
1. Query와 Key의 차원을 일치시켜 Dot Product 연산이 가능하도록 설계했는가
2. Softmax를 통해 가중치의 총합을 1로 정규화하여 확률 분포로 변환했는가
3. 특정 토큰에 대한 Attention 집중도가 의도한 대로 할당되는지 검증했는가