피드로 돌아가기
My Notes on Karpathy's Makemore part 1: Building a Bigram Language Model from Scratch
Dev.toDev.to
AI/ML

Bigram 모델의 Counting 방식과 NN 접근법의 수학적 동일성 증명

My Notes on Karpathy's Makemore part 1: Building a Bigram Language Model from Scratch

omkar2026년 4월 19일49beginner

Context

문자 단위 Next Character 예측을 위한 기초적인 언어 모델 설계 필요성 대두. 단순 통계 기반의 Counting 방식은 구현이 간단하나 컨텍스트 확장 시 차원의 저주 문제로 인한 확장성 한계 존재.

Technical Solution

  • , Special Token 도입을 통한 단어의 시작과 끝 경계 정의
  • 28x28 크기의 2D Count Array 기반 Bigram 빈도수 기록 및 확률 분포 생성
  • One-Hot Encoding을 통한 Categorical 데이터의 벡터화 및 NN 입력 구조 설계
  • Logits-Softmax 파이프라인 구축을 통한 Count-based 확률 모델의 NN 구현
  • Negative Log Likelihood 손실 함수 적용으로 모델 최적화 및 Gradient Descent 수행
  • Smoothing 기법 적용을 통한 Zero-count 문제 해결 및 일반화 성능 확보

- 범주형 데이터 처리 시 One-Hot Encoding과 Embedding 층의 효율성 비교 검토 - 데이터 희소성 문제 해결을 위한 Label Smoothing 및 Regularization 적용 여부 확인 - 모델의 예측 결과 도출 시 Softmax를 통한 확률 분포 생성과 Multinomial Sampling 전략 수립

원문 읽기