Schema 준수와 실제 값 정확도를 분리한 SOB 벤치마크로 LLM 결정론적 출력 검증

Show HN: A new benchmark for testing LLMs for deterministic outputs

2026년 4월 29일8분advanced

AI 요약

Context

기존 벤치마크가 JSON Schema 준수 여부에만 집중하여 실제 값의 정확성(Value Accuracy)을 간과한 한계 존재. 특히 텍스트 외 OCR, 오디오 등 다양한 Modality 데이터 추출 시 발생하는 Structured Hallucination으로 인한 하위 시스템 장애 위험 증가.

Technical Solution

Extraction 능력만을 격리 측정하기 위해 Image/Audio 데이터를 Text-normalized context로 사전 변환하는 파이프라인 설계
JSON Pass, Type Safety 등 구조적 지표와 Value Accuracy, Faithfulness 등 내용적 지표를 분리한 7가지 다각도 메트릭 도입
JSON 파싱 실패 시 하위 시맨틱 지표를 0점 처리하는 Hardening gate를 통한 스코어 뻥튀기 방지
모델이 실제로 반환한 필드에 대해서만 정확도를 측정하되 누락된 경로는 오답 처리하는 Coverage gate 적용
Schema 복잡도(Easy, Medium, Hard)에 따라 1.0~3.0의 가중치를 부여하는 가중치 기반 리더보드 산출 방식 채택
Temperature 0.0 및 Reasoning/Thinking 프로세스 제거를 통한 순수 추출 성능 측정 환경 구축

Impact

Frontier 모델 기준 JSON Pass와 Value Accuracy 간 15~30포인트의 격차 확인으로 구조적 정확성이 값의 정확성을 보장하지 않음을 증명
Modality별 성능 편차 극심: Text(83.0%) → Image(67.2%) → Audio(23.7%) 순으로 Value Accuracy 급감 확인
구조적 지표가 99%에 수렴하더라도 Perfect Response는 상위 모델조차 약 50% 수준에 머무는 결과 도출

Key Takeaway

LLM의 Structured Output 설계 시 'Valid JSON'을 'Correct Data'로 오인하는 인지 편향을 경계하고, 필드 단위의 값 검증(Field-level check)과 Modality별 특화 모델 전략이 필수적임.

실천 포인트

- LLM 출력 검증 시 Schema Validation 이후 반드시 Ground-truth 기반의 Value Accuracy 단계 추가 - 입력 소스(Text, Image, Audio)에 따라 LLM의 추출 성능이 급격히 변하므로 Modality별 벤치마크 수행 - Nested Structure가 깊은 Schema일수록 오류 발생률이 높으므로 복잡도에 따른 가중치 테스트 설계 - 단순 파싱 성공률이 아닌 Perfect Response(전체 필드 일치율)를 핵심 KPI로 설정

태그

#JSON Schema #Deterministic Output #Structured-Output #Hallucination #Modality

원문 읽기