피드로 돌아가기
Dev.toAI/ML
원문 읽기
Attention 메커니즘에서 Cosine Similarity 계산을 Dot Product로 단순화하여 분모 제거로 연산 복잡도 감소
Understanding Attention Mechanisms – Part 3: From Cosine Similarity to Dot Product
AI 요약
Context
Encoder-Decoder 아키텍처에서 두 LSTM 셀의 출력값들 간 유사도를 계산할 때 Cosine Similarity 공식을 적용하고 있었다. 이 과정에서 분모 계산으로 인한 수학적 복잡성이 존재했다.
Technical Solution
- Cosine Similarity 공식에서 분모를 제거하고 분자(Dot Product)만 계산: (-0.76 × 0.91) + (0.75 × 0.38) = -0.41로 단순화
- 고정된 수의 LSTM 셀을 다루므로 분모의 정규화 역할이 크지 않다고 판단하여 제거 가능
- 분모는 주로 값을 -1과 1 범위로 스케일링하는 역할만 수행하므로 생략 가능
- Dot Product 방식으로 동일한 Encoder-Decoder 비교 결과 도출 가능
Key Takeaway
고정 크기의 벡터를 다루는 Attention 메커니즘에서는 정규화 분모를 제거한 Dot Product만으로도 충분한 유사도 비교가 가능하며, 이를 통해 수학적 계산을 단순화할 수 있다.
실천 포인트
Attention 메커니즘을 구현하는 엔지니어가 고정 크기의 인코더/디코더 셀을 다룰 때, Cosine Similarity 전체 계산 대신 Dot Product만 사용하면 분모 계산 비용을 제거하면서도 동일한 상대 유사도 순위를 얻을 수 있다.