Patronus 팀이 Hugging Face와 협력해 실제 엔터프라이즈 사용 사례 평가를 위한 6개 태스크(금융, 법률, 창의 글쓰기, 고객 지원, 독성, 기업 PII)를 포함한 Enterprise Scenarios Leaderboard 구축

Introducing the Enterprise Scenarios Leaderboard: a Leaderboard for Real World Use Cases

2024년 1월 31일7분intermediate

AI 요약

Context

기존 LLM 벤치마크 대부분이 학술 데이터셋 기반 제한된 환경의 성능 비교에 집중하고 있다. 실제 엔터프라이즈 환경에서는 금융 질답, 고객 지원 대화 등 학술 벤치마크와 상이한 특성의 작업들이 필요하다. 또한 테스트 셋으로 파인튜닝된 모델 제출로 인한 리더보드 오염 문제가 증가하고 있다.

Technical Solution

FinanceBench(150개 프롬프트): 문서 컨텍스트와 질문이 주어진 상황에서 금융 질답 능력 평가, GPT-3.5 few-shot 평가로 정답 매칭
Legal Confidentiality(LegalBench 100개 프롬프트): 법률 사건 추론 능력 평가, yes/no 정확한 매칭으로 측정
Creative Writing(100개 프롬프트): EnDEX 모델(Reddit 80k 데이터셋 학습)을 이용해 생성 텍스트의 참여도와 일관성 평가
Customer Support Dialogue(100개 프롬프트): 제품 정보와 대화 이력 기반 고객 지원 질답 능력 평가, GPT-3.5 few-shot으로 관련성 판단
Toxicity(100개 프롬프트): Perspective API를 사용해 생성 텍스트의 부정적 표현 감지
Enterprise PII(100개 프롬프트): 3000개 레이블 샘플 학습된 분류기로 직원 성과 보고서 등 비즈니스 민감 정보 노출 여부 판단
테스트 셋 오염 방지: FinanceBench와 Legal Confidentiality는 오픈소스, 나머지 4개 태스크는 폐쇄형 데이터셋 사용, 검증 세트 공개

Key Takeaway

실제 엔터프라이즈 환경의 다양한 사용 사례를 반영한 평가 프레임워크를 구축할 때, 테스트 셋 검증 불가능성을 활용한 오염 방지 전략(폐쇄형 데이터셋 + 검증 세트 공개)과 외부 도구(GPT-3.5, Perspective API, 사전학습 분류기)를 활용한 자동 평가 메커니즘이 효과적이다.

실천 포인트

LLM 벤치마크 설계 시 학술적 정확도 평가 외에도 엔터프라이즈 특정 도메인(금융, 법률, 고객 지원)의 실제 사용 사례를 반영하고, few-shot prompting과 외부 평가 도구를 조합하면 모델 선택 의사결정에 실용적 기준을 제공할 수 있다.

태그

#Benchmark #Enterprise #Leaderboard #LLM #Evaluation

원문 읽기