피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gaussian 초기화와 Dual Embedding 기반의 LLM Forward Pass 설계
Chapter 6: Embeddings, the Forward Pass, and the Loss Function
AI 요약
Context
정수 형태의 Token ID만으로는 신경망이 의미론적 관계를 학습하기 어려운 한계 존재. 토큰의 정체성과 시퀀스 내 위치 정보를 동시에 처리할 수 있는 고차원 벡터 표현 체계 필요.
Technical Solution
- Token ID와 Position ID 각각에 대응하는 별도의 Embedding Table을 구축하여 고차원 벡터로 변환
- 두 Embedding 벡터의 Element-wise Addition을 통한 토큰 정체성과 위치 정보의 결합 구조 설계
- Gradient Exploding 방지를 위해 표준편차 0.08의 Gaussian Distribution 기반 가중치 초기화 적용
- 모델 크기 확장 시 1/sqrt(fan_in) 규칙을 적용하여 레이어 너비에 따른 최적의 표준편차 유지
- Linear Projection 레이어를 통해 결합된 벡터를 Vocabulary 크기의 Logits로 변환하는 Forward Pass 구현
- Negative Log Likelihood 기반의 Loss Function을 통한 예측 확률의 정밀 측정
실천 포인트
- 모델 스케일업 시 고정된 초기화 값 대신 1/sqrt(fan_in) 기반의 동적 스케일링 검토 - 시퀀스 데이터 처리 시 단순 정수 인덱싱 대신 학습 가능한 Embedding 레이어 도입 - Gradient Exploding 징후 발견 시 가장 먼저 가중치 초기화 분포의 표준편차 확인