피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Patronus 팀이 Hugging Face와 협력해 실제 엔터프라이즈 사용 사례 평가를 위한 6개 태스크(금융, 법률, 창의 글쓰기, 고객 지원, 독성, 기업 PII)를 포함한 Enterprise Scenarios Leaderboard 구축
Introducing the Enterprise Scenarios Leaderboard: a Leaderboard for Real World Use Cases
AI 요약
Context
기존 LLM 벤치마크 대부분이 학술 데이터셋 기반 제한된 환경의 성능 비교에 집중하고 있다. 실제 엔터프라이즈 환경에서는 금융 질답, 고객 지원 대화 등 학술 벤치마크와 상이한 특성의 작업들이 필요하다. 또한 테스트 셋으로 파인튜닝된 모델 제출로 인한 리더보드 오염 문제가 증가하고 있다.
Technical Solution
- FinanceBench(150개 프롬프트): 문서 컨텍스트와 질문이 주어진 상황에서 금융 질답 능력 평가, GPT-3.5 few-shot 평가로 정답 매칭
- Legal Confidentiality(LegalBench 100개 프롬프트): 법률 사건 추론 능력 평가, yes/no 정확한 매칭으로 측정
- Creative Writing(100개 프롬프트): EnDEX 모델(Reddit 80k 데이터셋 학습)을 이용해 생성 텍스트의 참여도와 일관성 평가
- Customer Support Dialogue(100개 프롬프트): 제품 정보와 대화 이력 기반 고객 지원 질답 능력 평가, GPT-3.5 few-shot으로 관련성 판단
- Toxicity(100개 프롬프트): Perspective API를 사용해 생성 텍스트의 부정적 표현 감지
- Enterprise PII(100개 프롬프트): 3000개 레이블 샘플 학습된 분류기로 직원 성과 보고서 등 비즈니스 민감 정보 노출 여부 판단
- 테스트 셋 오염 방지: FinanceBench와 Legal Confidentiality는 오픈소스, 나머지 4개 태스크는 폐쇄형 데이터셋 사용, 검증 세트 공개
Key Takeaway
실제 엔터프라이즈 환경의 다양한 사용 사례를 반영한 평가 프레임워크를 구축할 때, 테스트 셋 검증 불가능성을 활용한 오염 방지 전략(폐쇄형 데이터셋 + 검증 세트 공개)과 외부 도구(GPT-3.5, Perspective API, 사전학습 분류기)를 활용한 자동 평가 메커니즘이 효과적이다.
실천 포인트
LLM 벤치마크 설계 시 학술적 정확도 평가 외에도 엔터프라이즈 특정 도메인(금융, 법률, 고객 지원)의 실제 사용 사례를 반영하고, few-shot prompting과 외부 평가 도구를 조합하면 모델 선택 의사결정에 실용적 기준을 제공할 수 있다.