피드로 돌아가기
Dev.toAI/ML
원문 읽기
Dual-track 설계를 통한 LLM 점수 변동성 ±0.8에서 ±0.5로 개선
Why we run two scoring tracks (LLM + Mediapipe) for our AI face-rating tool
AI 요약
Context
LLM 기반의 얼굴 평가 도구에서 동일 입력에 대해 결과값이 변하는 Non-deterministic 특성으로 인한 UX 저하 발생. Temperature 조절 및 Self-consistency 기법을 시도했으나 API 비용 상승 및 미미한 변동성 감소로 인해 근본적인 해결책 마련이 필요했던 상황.
Technical Solution
- Mediapipe Face Mesh를 활용한 Geometric Track을 구축하여 결정론적(Deterministic) 측정값 확보
- Canthal tilt, Jaw angle, Symmetry 등 수치적 계산이 가능한 기하학적 지표를 0-10점의 하위 점수로 매핑
- LLM Track은 피부 품질, 헤어 스타일, 조화 등 패턴 인식 기반의 Aesthetic-judgment 레이어에만 집중하도록 역할 분리
- 최종 점수 산출 시 Geometric score(0.6)와 LLM aesthetic score(0.4)를 가중 합산하는 Compose 방식 적용
- 두 트랙 간 점수 차이가 2.0을 초과할 경우 보수적 접근을 위해 하위 점수를 채택하는 Disagreement Detection 로직 구현
- 단순 블랙박스 결과 제공에서 벗어나 기하학적 수치 기반의 Actionable Feedback 제공 구조 설계
실천 포인트
1. 정량적 측정이 가능한 영역을 LLM에서 분리하여 Deterministic한 모듈로 구현했는가?
2. LLM의 확률적 출력값을 보정할 수 있는 신뢰 가능한 Anchor 지표가 설계에 포함되었는가?
3. 서로 다른 판단 체계(Rule vs LLM) 간의 괴리를 감지하는 Disagreement Detection 로직이 존재하는가?
4. 데이터 품질(예: 조명, 해상도)에 따라 각 모듈의 가중치를 동적으로 조절하는 Dynamic Weighting 도입을 검토했는가?