피드로 돌아가기
Dev.toAI/ML
원문 읽기
B2B 영업 에이전트의 신뢰성 검증을 위한 168개 태스크 기반 Tenacious-Bench 구축
Tenacious-Bench v0.1: a small B2B sales-outreach benchmark with contamination checks
AI 요약
Context
범용 벤치마크의 단순 도움말 성능 측정 방식으로는 B2B 영업 에이전트 특유의 과잉 주장 및 약속 불이행 등의 실패 사례 탐지가 불가능한 한계 존재.
Technical Solution
- Programmatic sweeps 및 Multi-LLM synthesis 등 다각적 데이터 생성 기법을 통한 단일 생성기 편향 제거
- Prospect context, Signal confidence, Bench availability 등 구조화된 입력값 설계를 통한 정밀한 상황 제어
- n-gram overlap 및 Embedding similarity 분석을 통한 Train/Validation 데이터셋 간 Contamination 원천 차단
- ORPO 및 DPO 스타일의 Preference-style critic path 설계를 통한 모델의 일관성 및 안전성 강화
- 정교한 Scoring rubric 적용을 통한 평가 결과의 재현성 확보 및 정량적 측정 체계 구축
실천 포인트
- 합성 데이터 생성 시 단일 LLM 의존도를 낮추기 위한 Multi-generator 전략 검토 - 평가셋의 유효성 확보를 위해 Embedding similarity 기반의 데이터 누수(Leakage) 체크 프로세스 도입 - 단순 텍스트 생성이 아닌 정해진 Rubric 기반의 기계적 점수 산출 체계 설계