BPE 도입을 통한 UNK 토큰 제거 및 시퀀스 효율성 최적화

LLM Study Diary #2: Tokenization

Sofia2026년 5월 4일2분beginner

AI 요약

Context

Character, Byte, Word-based Tokenization의 한계로 인한 학습 효율 저하 발생. 특히 Word-based 방식의 무제한적인 Vocabulary 크기와 UNK 토큰 발생으로 인한 모델 학습 및 평가의 불안정성 해결 필요.

실천 포인트

1. 데이터셋의 통계적 특성에 따라 Vocabulary 크기를 결정하고 있는지 확인

2. 희귀 단어 처리 시 UNK 토큰 의존도를 낮추기 위한 Sub-word 분절 전략 검토

3. Attention 메커니즘의 연산 복잡도(Quadratic)를 고려하여 Token 시퀀스 길이 최적화 수행

태그