Softmax 기반 Weighting을 통한 Self-Attention Value 산출 메커니즘

Understanding Transformers Part 7: From Similarity Scores to Self-Attention

Rijul Rajesh2026년 4월 15일1분intermediate

AI 요약

Context

Query와 Key 간의 유사도 계산 이후 개별 단어가 인코딩에 기여하는 비중을 결정해야 하는 단계 단순 유사도 점수를 실제 데이터 표현값으로 변환하기 위한 가중치 적용 체계 필요

실천 포인트

1. 단순 유사도 점수를 사용하지 않고 Softmax를 통해 합계가 1인 확률 분포로 정규화했는지 확인

2. Value 벡터에 가중치를 곱해 필요한 정보만 선택적으로 취합하는 Scaling 로직 검토

3. 최종 출력값이 모든 입력 요소의 가중 합(Weighted Sum)으로 구성되어 정보 손실을 방지하는지 검증

태그