Negative Log Probability 기반 Bigram Baseline 구축을 통한 Next-token 예측 성능 정의

Chapter 4: The Bigram Model - Simplest Possible Language Model

Gary Jackson2026년 4월 23일8분beginner

AI 요약

Context

복잡한 Neural Network 도입 전, 가장 단순한 형태의 언어 모델을 통해 문제 정의와 평가 지표를 설정할 필요성 대두. 단순 빈도 계산 기반의 Bigram 모델을 설계하여 향후 모델 성능 비교를 위한 정량적 Baseline 수립 목적.

Vocabulary 크기에 기반한 2차원 double 배열을 활용하여 Token 간 전이 확률(Transition Probability)을 저장하는 구조 설계
Training 단계에서 연속된 Token 쌍의 출현 횟수를 카운팅한 후, 행 단위 합계로 나누어 확률 분포로 정규화하는 로직 구현
Weighted Random Sampling 방식을 통해 확률 분포에 따라 다음 Token을 결정하는 Generation 루프 구축
정답 Token에 할당된 확률의 Negative Log 값을 취해 모델의 '놀람 정도(Surprise)'를 수치화하는 Loss 함수 정의
BOS(Beginning of Sequence) 토큰을 시작점으로 설정하여 시퀀스 생성의 일관성 확보 및 종료 조건 명시
Neural Network의 Gradient 업데이트 과정 없이 단순 통계량 산출만으로 추론이 가능한 경량 구조 채택

실천 포인트

1. 성능 최적화 전 단순 통계 기반의 Baseline 모델을 통해 상한선과 하한선 정의

2. 확률 기반 샘플링 시 Cumulative Probability를 활용한 Weighted Random Sampling 구현 검토

3. 예측 모델의 평가 지표로 확률값의 Negative Log를 활용한 Loss 계산 방식 적용

태그