피드로 돌아가기
Dev.toAI/ML
원문 읽기
BPE 도입을 통한 UNK 토큰 제거 및 시퀀스 효율성 최적화
LLM Study Diary #2: Tokenization
AI 요약
Context
Character, Byte, Word-based Tokenization의 한계로 인한 학습 효율 저하 발생. 특히 Word-based 방식의 무제한적인 Vocabulary 크기와 UNK 토큰 발생으로 인한 모델 학습 및 평가의 불안정성 해결 필요.
Technical Solution
- 입력 문자열의 Byte 단위 변환을 통한 모든 문자 표현 보장
- 전체 Corpus 내 인접 Token Pair의 빈도수 분석을 통한 데이터 통계 기반 접근
- 최빈값 Pair를 단일 Token으로 병합하는 반복 프로세스를 통한 Vocabulary 확장
- 빈번한 시퀀스는 단일 Token으로, 희귀 시퀀스는 하위 단위로 분리하는 적응형 표현 구조 설계
- 데이터 압축 알고리즘 기반의 BPE 채택을 통한 고정된 Vocabulary 크기 유지 및 압축률 향상
실천 포인트
1. 데이터셋의 통계적 특성에 따라 Vocabulary 크기를 결정하고 있는지 확인
2. 희귀 단어 처리 시 UNK 토큰 의존도를 낮추기 위한 Sub-word 분절 전략 검토
3. Attention 메커니즘의 연산 복잡도(Quadratic)를 고려하여 Token 시퀀스 길이 최적화 수행