피드로 돌아가기
Understanding Transformers Part 7: From Similarity Scores to Self-Attention
Dev.toDev.to
AI/ML

Softmax 기반 Weighting을 통한 Self-Attention Value 산출 메커니즘

Understanding Transformers Part 7: From Similarity Scores to Self-Attention

Rijul Rajesh2026년 4월 15일1intermediate

Context

Query와 Key 간의 유사도 계산 이후 개별 단어가 인코딩에 기여하는 비중을 결정해야 하는 단계 단순 유사도 점수를 실제 데이터 표현값으로 변환하기 위한 가중치 적용 체계 필요

Technical Solution

  • Softmax 함수 적용을 통한 Query-Key 유사도 점수의 확률 분포 변환
  • 특정 단어의 자기 유사도(Self-similarity) 기반 가중치 1(100%) 할당 및 타 단어 기여도 0% 근접 처리
  • 각 단어별 고유 Value 벡터 생성을 통한 데이터 표현 공간 확보
  • Softmax Weight를 Value 벡터에 곱하는 Scaling 과정을 통한 정보 강도 조절
  • Scaling 된 모든 Value 벡터의 합산으로 문맥 정보가 통합된 최종 Self-attention Value 생성
  • 단어 간의 상관관계에 기반한 가중 합산 방식을 통한 풍부한 문맥적 임베딩 구현

1. 단순 유사도 점수를 사용하지 않고 Softmax를 통해 합계가 1인 확률 분포로 정규화했는지 확인

2. Value 벡터에 가중치를 곱해 필요한 정보만 선택적으로 취합하는 Scaling 로직 검토

3. 최종 출력값이 모든 입력 요소의 가중 합(Weighted Sum)으로 구성되어 정보 손실을 방지하는지 검증

원문 읽기