피드로 돌아가기
When Generic Benchmarks Fail: Building a Sales-Domain Evaluation Bench from Scratch
Dev.toDev.to
AI/ML

LoRA 기반 맞춤형 벤치마크 구축을 통한 도메인 정확도 42.6%p 향상

When Generic Benchmarks Fail: Building a Sales-Domain Evaluation Bench from Scratch

Nati A2026년 5월 2일9advanced

Context

범용 Retail 벤치마크(τ²-Bench)가 B2B 영업 도메인의 특수 제약 사항을 검증하지 못하는 한계 발생. Fluent한 문장 생성 능력과 별개로 Bench Capacity 및 ICP Segment 등 구조화된 컨텍스트를 무시하는 시스템적 결함 확인.

Technical Solution

  • Trace-derived, Programmatic, Multi-LLM Synthesis, Hand-authored의 4가지 모드를 혼합한 Tenacious-Bench v0.2 구축
  • Preference-leakage 방지를 위해 생성 모델(Qwen)과 판정 모델(Claude/OpenAI)의 패밀리를 분리하는 교차 검증 구조 설계
  • 단순 Generation Quality 개선이 아닌 구조화된 컨텍스트를 검증하는 Rejection Layer 도입을 위한 Critic 설계
  • LLM-as-judge 게이트를 통해 Input Coherence 및 Ground-truth Verifiability를 기준으로 데이터 품질 필터링 수행
  • Jaccard Overlap 임계값 0.8을 적용하여 중복 합성 경로를 제거하는 Pairwise Tiebreak 로직 구현
  • Qwen2.5-0.5B 기반 LoRA Adapter 학습을 통해 Prompt-only 모델의 맹점인 Gap Overclaiming 및 Tone Drift 해결

Impact

  • LoRA Adapter 적용 후 정답률 48.9%에서 91.5%로 42.6%p 상승 (p < 0.0001)
  • 학습 비용 Colab T4 기준 약 2.16분 소요 및 API 비용 약 $0.02의 극소 비용 달성
  • 추론 지연시간은 Prompt-only(96ms) 대비 LoRA Judge(369ms)로 증가했으나 강력한 Rejection Layer 확보

Key Takeaway

도메인 특화 에이전트의 성능 측정 시 유창함(Fluency)보다 구조화된 제약 조건(Structured Context)의 준수 여부를 검증하는 맞춤형 평가 지표와 Critic 계층의 설계가 필수적임.


- 범용 벤치마크 수치에 의존하지 말고 실제 실패 사례(Failure Library) 기반의 Trace-derived 데이터셋을 우선 구축할 것 - 생성 모델과 평가 모델의 LLM 패밀리를 다르게 설정하여 자기 강화 편향(Preference Leakage)을 방지할 것 - 모델 크기를 키우는 대신 특정 도메인 제약 사항만 학습시킨 소형 LoRA Adapter를 Rejection Layer로 활용하여 효율성을 극대화할 것

원문 읽기