Hugging Face가 Evaluation on the Hub에 zero-shot 평가 기능을 추가해 66억 파라미터 모델을 3.5시간에 무료로 평가 가능하도록 인프라 개선

Very Large Language Models and How to Evaluate Them

2022년 10월 3일8분intermediate

AI 요약

Context

대규모 언어 모델의 zero-shot 성능 평가는 GPU 인프라 확보와 커스텀 코드 작성이 필수적이었으며, 66억 파라미터 모델도 로드와 컴파일에만 35분 이상 소요되어 소수의 기술력 있는 연구자만 접근 가능했다.

Technical Solution

AutoTrain 인프라 업그레이드: zero-shot text classification 태스크를 위한 무료 GPU 리소스 제공
Evaluation on the Hub 인터페이스 개선: 코드 작성 없이 Hub 내 모델과 데이터셋 선택하여 평가 작업 제출 가능
Zero-shot 평가 메커니즘: 프롬프트와 완성 토큰을 연결한 후 각 토큰의 로그 확률을 합산하고 정규화하여 정확도 계산
평가 결과 자동 보고: 평가 완료 후 autoevaluator 봇이 모델 Hub 저장소에 결과를 포함한 Pull Request 생성
확장 지원 계획: 현재 66억 파라미터까지 지원하며 향후 더 큰 모델 지원 예정

Impact

66억 파라미터 모델을 2000개 문장 길이 예시로 zero-shot classification 평가 수행 시 3.5시간 소요 (기존: 35분 로드 시간 + 평가 시간)

Key Takeaway

커뮤니티 기반 평가 도구의 인프라 민주화를 통해 기술 진입장벽을 낮추면, 더 많은 연구자가 모델 편향성(WinoBias 사례에서 발견한 역스케일링 문제)과 같은 중요한 AI 안전 이슈를 발견하고 검증할 수 있다.

실천 포인트

대규모 언어 모델을 평가해야 하는 연구팀이나 개발팀은 Evaluation on the Hub의 zero-shot text classification 태스크를 활용하면 자체 GPU 인프라 구축 없이도 모델 편향성, 성능 역스케일링 같은 문제를 저비용으로 탐지할 수 있으며, WinoBias와 같은 구조적 데이터셋을 Winograd 스키마로 변환하여 여러 모델에 동시에 평가할 수 있다.

태그

#LLM Evaluation #Zero-shot Classification #Model Bias #AutoTrain #Inverse Scaling

원문 읽기