Attention 메커니즘에서 Cosine Similarity 대신 Dot Product를 선호하는 이유와 그 실무적 근거

Cosine Similarity vs Dot Product in Attention Mechanisms

Rijul Rajesh2026년 3월 30일1분beginner

AI 요약

Context

트랜스포머 기반 모델의 인코더-디코더 간 유사도 계산은 Attention 가중치 산출의 핵심이다. 기존 Cosine Similarity 방식은 정규화로 일관된 스케일(-1~1)을 제공하지만, 추가 연산(나눗셈, 제곱근)으로 인해 계산 비용이 높은 단점이 있다.

동일한 유사도 비교에서 Dot Product 방식이 추가 정규화 연산 비용 없이 Attention 품질 유지

Attention 메커니즘에서 단순성과 속도가 정규화된 스케일보다 우선한다. 모델은 비정규화된 점수로부터도 상대적 중요도를 효과적으로 학습할 수 있다.

실천 포인트

트랜스포머 어텐션 구현 시 유사도 계산에서 Dot Product 방식으로 Cosine Similarity를 대체하면 연산 효율성을 유지하면서도 Attention 가중치 품질 저하 없이 구현 복잡도를 줄일 수 있다

태그