피드로 돌아가기
Cosine Similarity vs Dot Product in Attention Mechanisms
Dev.toDev.to
AI/ML

Attention 메커니즘에서 Cosine Similarity 대신 Dot Product를 선호하는 이유와 그 실무적 근거

Cosine Similarity vs Dot Product in Attention Mechanisms

Rijul Rajesh2026년 3월 30일1beginner

Context

트랜스포머 기반 모델의 인코더-디코더 간 유사도 계산은 Attention 가중치 산출의 핵심이다. 기존 Cosine Similarity 방식은 정규화로 일관된 스케일(-1~1)을 제공하지만, 추가 연산(나눗셈, 제곱근)으로 인해 계산 비용이 높은 단점이 있다.

Technical Solution

  • 인코더 출력 벡터와 디코더 출력 벡터 → 각 요소별 곱셈 후 합산으로 Dot Product 계산
  • Cosine Similarity → 벡터 내적 후 L2 정규화로 -1~1 범위로 제한
  • Dot Product 방식 → 정규화 생략으로 연산 복잡도 대폭 감소
  • Attention 가중치 산출 시 → 곱셈-합산 연산만으로 상대적 점수 도출
  • 비정규화 벡터에서도 → 모델이 중요 단어와 무시할 단어를 스스로 학습 가능

Impact

동일한 유사도 비교에서 Dot Product 방식이 추가 정규화 연산 비용 없이 Attention 품질 유지

Key Takeaway

Attention 메커니즘에서 단순성과 속도가 정규화된 스케일보다 우선한다. 모델은 비정규화된 점수로부터도 상대적 중요도를 효과적으로 학습할 수 있다.


트랜스포머 어텐션 구현 시 유사도 계산에서 Dot Product 방식으로 Cosine Similarity를 대체하면 연산 효율성을 유지하면서도 Attention 가중치 품질 저하 없이 구현 복잡도를 줄일 수 있다

원문 읽기
Cosine Similarity vs Dot Product in Attention Mechanisms | Devpick