피드로 돌아가기
Understanding Attention Mechanisms – Part 5: How Attention Produces the First Output
Dev.toDev.to
AI/ML

Attention 가중치(0.4, 0.6) 기반 Softmax 출력으로 첫 번째 토큰 'vamos' 생성함

Understanding Attention Mechanisms – Part 5: How Attention Produces the First Output

Rijul Rajesh2026년 4월 1일1intermediate

Context

Sequence-to-sequence 모델에서 인코딩 단계 이후 첫 번째 출력 단어를 생성하는 과정의 한계가 존재함. 이전 단계에서 softmax로 스케일링한 어텐션 스코어만으로는 출력 단어를 결정할 수 없음.

Technical Solution

  • Attention 스코어: "Let's"에 0.4, "go"에 0.6의 가중치를 적용하여 인코딩 벡터를 스케일링함
  • 스케일링된 벡터 합산: 두 인코딩 벡터를 가중치만큼 각각 곱한 뒤 합산하여 어텐션 값을 생성함
  • Fully Connected Layer: 합산된 어텐션 값을 입력으로 받아 변환 처리함
  • EOS 인코딩 추가: End-of-Sequence 토큰의 인코딩 벡터를 함께 결합함
  • Softmax 함수 적용: 최종 결합 벡터를 소프트맥스 통과시켜 각 단어의 확률 분포를 산출함

Key Takeaway

어텐션 메커니즘은 유사도 기반 가중치와 인코딩 정보를 결합하여 컨텍스트 인식 출력을 가능하게 함. 이 과정에서 Fully Connected Layer와 Softmax의 조합이 결정적 역할을 함.


어텐션 기반 모델 구현 시 스케일링된 값의 합산 -> FC Layer -> Softmax 파이프라인을 순차적으로 적용해야 첫 번째 출력 토큰을 정확하게 생성할 수 있음.

원문 읽기