피드로 돌아가기
I built a token-level debugger for comparing two LLMs
Dev.toDev.to
AI/ML

Token-level Divergence 분석을 통한 LLM 출력 비교 디버거 구현

I built a token-level debugger for comparing two LLMs

BN2026년 5월 26일1intermediate

Context

동일 Prompt 입력 시 모델별로 상이한 Output이 발생하나, 이를 정밀하게 추적할 Tooling의 부재. 기존의 텍스트 기반 비교 방식으로는 Token 단위의 발산 지점을 파악하는 데 한계가 있음.

Technical Solution

  • Entropy Heatmap 구현을 통한 모델의 예측 불확실성 시각화
  • Tokenizer Diff 분석으로 모델 간 토큰 분할 방식의 차이 식별
  • Divergence Marker 설계를 통한 두 모델의 출력 경로가 갈라지는 정확한 지점 포착
  • Token-by-token Replay 메커니즘을 통한 생성 과정의 순차적 검증 구조 채택
  • 분석 결과를 단일 HTML 파일로 렌더링하여 배포 및 공유 효율성 극대화

LLM 모델 비교 시 단순 텍스트 Diff가 아닌 Token-level Entropy와 Tokenizer 차이를 우선 검토하여 생성 경로의 근본적 차이 분석

원문 읽기