Dual-track 설계를 통한 LLM 점수 변동성 ±0.8에서 ±0.5로 개선

Why we run two scoring tracks (LLM + Mediapipe) for our AI face-rating tool

汪小春2026년 5월 16일3분intermediate

AI 요약

Context

LLM 기반의 얼굴 평가 도구에서 동일 입력에 대해 결과값이 변하는 Non-deterministic 특성으로 인한 UX 저하 발생. Temperature 조절 및 Self-consistency 기법을 시도했으나 API 비용 상승 및 미미한 변동성 감소로 인해 근본적인 해결책 마련이 필요했던 상황.

Technical Solution

Mediapipe Face Mesh를 활용한 Geometric Track을 구축하여 결정론적(Deterministic) 측정값 확보
Canthal tilt, Jaw angle, Symmetry 등 수치적 계산이 가능한 기하학적 지표를 0-10점의 하위 점수로 매핑
LLM Track은 피부 품질, 헤어 스타일, 조화 등 패턴 인식 기반의 Aesthetic-judgment 레이어에만 집중하도록 역할 분리
최종 점수 산출 시 Geometric score(0.6)와 LLM aesthetic score(0.4)를 가중 합산하는 Compose 방식 적용
두 트랙 간 점수 차이가 2.0을 초과할 경우 보수적 접근을 위해 하위 점수를 채택하는 Disagreement Detection 로직 구현
단순 블랙박스 결과 제공에서 벗어나 기하학적 수치 기반의 Actionable Feedback 제공 구조 설계

실천 포인트

1. 정량적 측정이 가능한 영역을 LLM에서 분리하여 Deterministic한 모듈로 구현했는가?

2. LLM의 확률적 출력값을 보정할 수 있는 신뢰 가능한 Anchor 지표가 설계에 포함되었는가?

3. 서로 다른 판단 체계(Rule vs LLM) 간의 괴리를 감지하는 Disagreement Detection 로직이 존재하는가?

4. 데이터 품질(예: 조명, 해상도)에 따라 각 모듈의 가중치를 동적으로 조절하는 Dynamic Weighting 도입을 검토했는가?

태그

#Hybrid Architecture #LLM Variance #MediaPipe #Aesthetic Judgment #Deterministic Scoring

원문 읽기