텍스트를 정수 ID로 변환하는 Byte Pair Encoding 기반 Tokenization 구조 분석

Your LLM can't read. Here's the weird trick it uses instead

Michael Ross2026년 6월 13일4분beginner

AI 요약

Context

LLM이 텍스트를 직접 처리하지 못하고 정수 시퀀스로만 데이터를 수신하는 구조적 제약 존재. 단순 문자열 기반 처리가 아닌 Token 단위의 수치 매핑으로 인한 데이터 해석의 괴리 발생.

실천 포인트

1. API 요청 전 `tiktoken` 등을 활용하여 실제 Token 수를 사전 계산해 Context Window 초과 방지

2. UUID, JSON, 로그 데이터 등 비정형 데이터 포함 시 Token 급증 가능성을 고려한 프롬프트 설계

3. Few-shot 예제 작성 시 Leading Space 등 미세한 포맷 차이가 서로 다른 Token ID를 생성함을 인지하고 일관성 유지

태그