Linear 및 Softmax 구현을 통한 Neural Network 데이터 차원 제어와 수치 안정성 확보

Chapter 5: Linear Transformation and Softmax

Gary Jackson2026년 4월 24일6분intermediate

AI 요약

Context

Neural Network의 핵심 연산인 Linear Transformation과 Softmax의 수학적 구현 필요성 제기. 단순 연산을 넘어 Computation Graph 내에서 Gradient Flow가 유지되는 미분 가능한 구조 설계가 핵심 과제임.

Value 클래스의 Dot Product 메서드 확장을 통한 행렬-벡터 곱셈의 기본 연산 단위 구축
Linear 함수 설계를 통한 입력 벡터와 가중치 행렬의 곱셈으로 데이터 차원(Dimensionality) 변경 구현
Logits를 확률 분포로 변환하는 Softmax 함수 도입으로 출력값의 합을 1로 정규화
Softmax 연산 전 Max Value를 차감하는 Numerical Stability 기법 적용으로 Exponential 연산 시 Overflow 방지
모든 연산을 Value 객체 기반으로 구현하여 Backward Pass 시 자동 Gradient 전파 구조 확보
LLaMA와 같은 최신 아키텍처 트렌드를 반영하여 단순화를 위해 Bias Term을 제외한 설계 채택

실천 포인트

1. Exponential 연산 포함 시 Overflow 방지를 위한 Max Value 정규화 적용 여부 검토

2. 대규모 객체 할당이 발생하는 학습 루프 내에서 JIT Inlining 및 GC 부하를 줄이기 위한 Release 빌드 검증

3. 차원 변경이 필요한 레이어 설계 시 가중치 행렬의 Row/Column 크기와 입력/출력 벡터의 정합성 확인

태그