Gaussian 초기화와 Dual Embedding 기반의 LLM Forward Pass 설계

Chapter 6: Embeddings, the Forward Pass, and the Loss Function

Gary Jackson2026년 4월 25일10분intermediate

AI 요약

Context

정수 형태의 Token ID만으로는 신경망이 의미론적 관계를 학습하기 어려운 한계 존재. 토큰의 정체성과 시퀀스 내 위치 정보를 동시에 처리할 수 있는 고차원 벡터 표현 체계 필요.

Technical Solution

Token ID와 Position ID 각각에 대응하는 별도의 Embedding Table을 구축하여 고차원 벡터로 변환
두 Embedding 벡터의 Element-wise Addition을 통한 토큰 정체성과 위치 정보의 결합 구조 설계
Gradient Exploding 방지를 위해 표준편차 0.08의 Gaussian Distribution 기반 가중치 초기화 적용
모델 크기 확장 시 1/sqrt(fan_in) 규칙을 적용하여 레이어 너비에 따른 최적의 표준편차 유지
Linear Projection 레이어를 통해 결합된 벡터를 Vocabulary 크기의 Logits로 변환하는 Forward Pass 구현
Negative Log Likelihood 기반의 Loss Function을 통한 예측 확률의 정밀 측정

실천 포인트

- 모델 스케일업 시 고정된 초기화 값 대신 1/sqrt(fan_in) 기반의 동적 스케일링 검토 - 시퀀스 데이터 처리 시 단순 정수 인덱싱 대신 학습 가능한 Embedding 레이어 도입 - Gradient Exploding 징후 발견 시 가장 먼저 가중치 초기화 분포의 표준편차 확인

태그

#Logits #Negative Log Likelihood #Embedding #Gaussian Initialization #Forward Pass

원문 읽기