피드로 돌아가기
LLM guesses or knows
Dev.toDev.to
AI/ML

Logprobs 기반 Entropy 분석을 통한 LLM 모델별 Calibration 성능 검증

LLM guesses or knows

Alex2026년 6월 14일1intermediate

Context

LLM이 생성한 답변의 확신도와 실제 정답 여부 사이의 상관관계를 정량적으로 판별할 필요성 제기. 단순 텍스트 결과물이 아닌 모델 내부의 확률 분포를 분석하여 Guessing과 Knowing을 구분하는 메커니즘 탐색.

Technical Solution

  • Temperature 0.0 설정을 통한 결과의 결정론적(Deterministic) 환경 구축
  • Logprobs API를 활용하여 생성 토큰별 상위 후보군의 확률 분포 데이터 추출
  • 토큰 확률의 Entropy 수치를 통해 모델의 확신도를 측정하는 정량적 분석 기법 적용
  • Math, Completion, Generation 등 성격이 다른 3가지 Prompt를 통한 모델별 Calibration 비교 테스트 수행
  • 입력값 단순 복제(Echoing)로 인한 Entropy 붕괴 현상을 식별하여 가짜 확신도(Fake Certainty) 구분
  • 확률 분포의 분산 정도를 분석하여 Honest Uncertainty를 판별하는 로직 검토

1. Agentic Workflow 설계 시 Temperature를 0으로 설정하여 재현성 확보

2. 단순 응답값이 아닌 Logprobs를 추출하여 임계값 기반의 Confidence Score 필터링 도입

3. 입력 데이터를 그대로 출력하는 Copying 패턴 발생 시 Entropy가 낮아지는 왜곡 현상 주의

원문 읽기