피드로 돌아가기
Hacker NewsHacker News
AI/ML

UUID 대비 토큰 65% 절감 및 환각 방지를 위한 BPE 최적화 ID 설계

Show HN: Id-agent – Token efficient UUID alternative for AI agents

2026년 5월 19일8intermediate

Context

기존 UUID v4의 무작위 16진수 문자열이 LLM의 BPE Tokenizer에서 불규칙하게 분절되어 과도한 토큰을 소모하는 문제 발생. 이로 인한 Context Window 낭비 및 LLM의 ID 생성/인식 과정에서 발생하는 Hallucination 현상이 시스템 신뢰도를 저하시킴.

Technical Solution

  • o200k_base 토크나이저 기준 단일 토큰으로 처리되는 4,096개의 단어 리스트를 큐레이션하여 기반 사전 구축
  • Word-based ID 체계를 도입하여 DB 중심의 설계에서 LLM Context Window 중심의 설계로 패러다임 전환
  • CSRPNG 기반의 무작위 생성 및 HMAC-SHA256을 이용한 결정론적 ID 매핑 로직 구현
  • 엔트로피 설정을 통해 36bits(단어 3개)부터 192bits(단어 16개)까지 서비스 규모에 맞는 충돌 저항성 가변 제어
  • AliasMap을 통한 UUID ↔ Word-ID 양방향 매핑으로 레거시 시스템과의 호환성 및 토큰 효율성 동시 확보
  • Zod 기반의 스키마 검증을 통해 API 입력값의 정밀도와 타입 안정성 보장

Impact

  • 토큰 소모량 감소: UUID v4(~23 tokens) 대비 기본 설정 8단어 ID(~14 tokens)로 약 39% 절감, 5단어 설정 시 최대 65% 절감
  • 충돌 저항성 확보: 8단어 설정 시 ~96 bits 엔트로피 제공으로 약 300T 개의 아이템까지 안전한 식별 가능

Key Takeaway

시스템 설계 시 데이터 저장 효율(Storage Efficiency)뿐 아니라, 데이터를 소비하는 주체(LLM)의 처리 단위(Token)를 고려한 'Consumer-Centric' 식별자 설계가 성능 최적화의 핵심임.


1. LLM 기반 AI Agent 설계 시 UUID 대신 BPE 토큰 최적화 단어 조합 ID 검토

2. 서비스 규모에 따른 적정 엔트로피 계산 (예: SaaS 규모 시 최소 60 bits/5단어 권장)

3. 기존 UUID 유지 필요 시 AliasMap을 통한 Runtime 치환 전략 적용

원문 읽기