피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM이 텍스트를 처리할 때 글자 수와 관계없이 토큰 단위로 과금되므로 비용 최적화를 위해 토큰화와 인코딩 방식을 이해해야 한다
Tokens vs Bytes in AI: What LLMs Actually See When You Type
AI 요약
Context
컴퓨터는 UTF-8로 텍스트를 저장할 때 영어 1바이트, 한글/한자 3바이트, 이모지 4바이트를 사용한다. 트랜스포머 어텐션의 계산 비용이 시퀀스 길이의 제곱(O(n²))으로 증가하므로 원시 바이트를 사용하면 처리 속도가 급격히 느려진다. 영어 단어만으로도 17만 개 이상의 어휘가 존재하므로 단어 단위 인코딩은 어휘집 폭발 문제를 야기한다.
Technical Solution
- Byte Pair Encoding(BPE) 알고리즘으로 개별 문자로 분리 후 가장 빈번한 인접 쌍을 반복 병합한다
- 일반적인 LLM은 10만~20만 크기의 어휘집으로 토큰 시퀀스를 압축한다
- GPT-5의 토크나이저는 GPT-4 대비 중국어 처리 효율이 40% 높다
- tiktoken 라이브러리로 실제 토큰 분해를 확인할 수 있다
- Crazyrouter 같은 서비스로 단일 API 키로 627개 이상의 모델을 비교할 수 있다
Impact
영어의 경우 1 토큰이 약 4글자에 해당하며, 동일 글자 수 기준 중국어가 영어 대비 약 50% 더 많은 토큰을 소비한다. 일문은 15바이트를 1 토큰으로 처리하여 가장 효율적이다.
Key Takeaway
토큰은 바이트도, 글자도, 단어도 아닌 서브워드 단위로 어휘집 크기와 시퀀스 길이의 균형점을 찾은 설계이다.
실천 포인트
AI API 비용을 절감하려면 영어로 프롬프트를 작성하거나 동일 의미의 영어 문장으로 변환하여 토큰 수를 줄이는 방법이 효과적이다