데이터 정제만으로 Held-out 정확도 25% → 41.7% 개선 및 Prompting의 우위 확인

When Your Training Loss Is Lying to You Building a Tenacious-Specific Sales Outreach Benchmark Eyoel Nebiyu · May 2026

Eyoel Nebiyu2026년 5월 2일4분intermediate

AI 요약

Context

B2B 세일즈 아웃리치 에이전트의 톤앤매너 평가를 위해 기존 범용 벤치마크의 한계를 극복한 Tenacious-Bench 설계 필요성 대두. 단순 추론 능력이 아닌 하이어링 시그널 해석 및 예약 규칙 준수 등 도메인 특화 동작 검증이 핵심 과제로 식별됨.

Technical Solution

머신 그레이딩이 가능한 정량적 루브릭을 설계하여 모호한 전문성 평가를 배제하고 0~1 사이의 수치 기반 스코어링 구조 채택
데이터 오염 방지를 위해 8-gram 중복 체크, Embedding 유사도 임계치 설정 및 Time-window 필터링을 통한 Train/Held-out 분리
SimPO 알고리즘 기반의 reference-free preference learning을 적용하여 Qwen2.5-3B 모델을 Judge 모델로 파인튜닝
단순 템플릿 암기 현상을 방지하기 위해 강한 모델을 활용하여 'Chosen' 예시를 실제 도메인 보이스에 맞게 재작성하는 데이터 정제 수행
학습 지표(Training Loss)의 착시를 제거하고 데이터-모델 간의 정렬(Alignment) 상태를 검증하는 분석 프로세스 도입

실천 포인트

- Training Loss가 지나치게 낮을 때 모델 아키텍처 변경 전 데이터의 템플릿 중복 및 Shortcut 존재 여부 확인 - 정성적 평가 지표를 반드시 머신 그레이딩 가능한 정량적 루브릭(Banned phrases, Signal reference 등)으로 변환 - Fine-tuning 모델 도입 전, 고성능 모델 기반의 정교한 Prompting Baseline을 설정하여 학습의 실제 효용성 측정

태그

#SimPO #Prompt Engineering #Benchmark Design #Preference Learning #Overfitting

원문 읽기