피드로 돌아가기
An open source LLM eval tool with two independent quality signals
Dev.toDev.to
AI/ML

LLM-as-Judge 한계 극복을 위한 결정론적 Cognitive Heatmap 기반 듀얼 시그널 평가 체계

An open source LLM eval tool with two independent quality signals

Frank Brsrk2026년 5월 22일5advanced

Context

LLM-as-judge 방식의 높은 비용, 느린 속도, 결과의 변동성 및 모델 간 데이터 중첩으로 인한 순환 참조 구조가 신뢰성 병목으로 작용함. 단일 시그널에 의존하는 기존 평가 아키텍처의 불확실성을 해결할 독립적인 검증 지표의 필요성이 제기됨.

Technical Solution

  • LLM 기반의 Blind Judge와 결정론적 Text Analysis 기반의 Heatmap을 결합한 Dual Signal 구조 설계
  • 텍스트를 100개 Word-chunk로 분할하여 10x10 Grid로 시각화하는 Confidence Posture 분석 로직 구현
  • Hedge words와 Assertive words의 비율 및 구두점 패턴을 수식화하여 [-1, 1] 범위로 정규화한 상태 값 도출
  • Reasoning Connectives의 밀도를 측정하고 2D Gaussian Blur를 적용하여 희소한 마커를 공간적 Blob 형태로 변환
  • Client-side Vanilla JS 기반의 연산을 통해 API 호출 없는 제로 비용의 실시간 결정론적 분석 환경 구축
  • Multi-turn 시나리오 모드를 통해 Sycophancy Compounding 및 Hallucination Cascade 같은 궤적 기반의 실패 모드 추적 기능 추가

- LLM 평가 시 LLM-as-judge 외에 결정론적인 언어적 패턴 분석 지표를 병행하여 교차 검증할 것 - 모델의 정답 여부뿐만 아니라 Confidence와 Reasoning Density의 공간적 분포를 분석하여 신뢰 구간을 설정할 것 - Multi-turn 평가 시 단일 턴의 정확도가 아닌 대화 이력에 따른 오류 전파(Cascade) 및 확증 편향 궤적을 모니터링할 것 - 복잡한 대시보드 대신 시각적 계층 구조가 명확한 UI 설계를 통해 분석 효율성을 높일 것

원문 읽기