Bigram 모델의 Counting 방식과 NN 접근법의 수학적 동일성 증명

My Notes on Karpathy's Makemore part 1: Building a Bigram Language Model from Scratch

omkar2026년 4월 19일49분beginner

AI 요약

Context

문자 단위 Next Character 예측을 위한 기초적인 언어 모델 설계 필요성 대두. 단순 통계 기반의 Counting 방식은 구현이 간단하나 컨텍스트 확장 시 차원의 저주 문제로 인한 확장성 한계 존재.

Technical Solution

, Special Token 도입을 통한 단어의 시작과 끝 경계 정의
28x28 크기의 2D Count Array 기반 Bigram 빈도수 기록 및 확률 분포 생성
One-Hot Encoding을 통한 Categorical 데이터의 벡터화 및 NN 입력 구조 설계
Logits-Softmax 파이프라인 구축을 통한 Count-based 확률 모델의 NN 구현
Negative Log Likelihood 손실 함수 적용으로 모델 최적화 및 Gradient Descent 수행
Smoothing 기법 적용을 통한 Zero-count 문제 해결 및 일반화 성능 확보

실천 포인트

- 범주형 데이터 처리 시 One-Hot Encoding과 Embedding 층의 효율성 비교 검토 - 데이터 희소성 문제 해결을 위한 Label Smoothing 및 Regularization 적용 여부 확인 - 모델의 예측 결과 도출 시 Softmax를 통한 확률 분포 생성과 Multinomial Sampling 전략 수립

태그

#Softmax #Bigram #Negative Log Likelihood #One-Hot Encoding #Neural Network

원문 읽기