피드로 돌아가기
Self-Attention: The Brilliant Idea That Made Large Language Models Possible
Dev.toDev.to
AI/ML

Recurrence 제거와 Self-Attention 도입을 통한 병렬 처리 및 LLM 가속화

Self-Attention: The Brilliant Idea That Made Large Language Models Possible

Shrijith Venkatramana2026년 6월 28일7intermediate

Context

RNN, LSTM 기반의 순차적 데이터 처리로 인한 Long-range dependencies 해결의 한계 발생. 데이터 전송 과정의 노이즈 누적 및 GPU 병렬 연산 활용 불가로 인한 학습 효율 저하 문제 직면.

Technical Solution

  • Recurrent Network를 완전히 제거하고 Self-Attention 레이어를 적층한 Transformer 아키텍처 설계
  • 모든 토큰이 서로를 직접 참조하는 구조를 통해 문맥적 의미를 동시에 파악하는 Global Context 확보
  • Query, Key, Value 세 가지 벡터를 통한 정보 요청, 매칭, 제공의 메커니즘 구현
  • Dot Product 기반의 유사도 측정 및 Softmax 함수를 이용한 Attention Weight 할당 로직 적용
  • $\sqrt{d}$ 스케일링을 통한 Softmax saturation 방지로 Gradient 안정성 및 학습 최적화 달성

1. 순차적 데이터 처리 병목 발생 시 병렬 가능한 Attention 구조 검토

2. 고차원 벡터 연산 시 Gradient 소실/폭주 방지를 위한 Scaling Factor 적용 여부 확인

3. 정보의 중요도에 따라 가중치를 동적으로 할당하는 메커니즘 설계 고려

원문 읽기