피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face가 Evaluation on the Hub에 zero-shot 평가 기능을 추가해 66억 파라미터 모델을 3.5시간에 무료로 평가 가능하도록 인프라 개선
Very Large Language Models and How to Evaluate Them
AI 요약
Context
대규모 언어 모델의 zero-shot 성능 평가는 GPU 인프라 확보와 커스텀 코드 작성이 필수적이었으며, 66억 파라미터 모델도 로드와 컴파일에만 35분 이상 소요되어 소수의 기술력 있는 연구자만 접근 가능했다.
Technical Solution
- AutoTrain 인프라 업그레이드: zero-shot text classification 태스크를 위한 무료 GPU 리소스 제공
- Evaluation on the Hub 인터페이스 개선: 코드 작성 없이 Hub 내 모델과 데이터셋 선택하여 평가 작업 제출 가능
- Zero-shot 평가 메커니즘: 프롬프트와 완성 토큰을 연결한 후 각 토큰의 로그 확률을 합산하고 정규화하여 정확도 계산
- 평가 결과 자동 보고: 평가 완료 후 autoevaluator 봇이 모델 Hub 저장소에 결과를 포함한 Pull Request 생성
- 확장 지원 계획: 현재 66억 파라미터까지 지원하며 향후 더 큰 모델 지원 예정
Impact
66억 파라미터 모델을 2000개 문장 길이 예시로 zero-shot classification 평가 수행 시 3.5시간 소요 (기존: 35분 로드 시간 + 평가 시간)
Key Takeaway
커뮤니티 기반 평가 도구의 인프라 민주화를 통해 기술 진입장벽을 낮추면, 더 많은 연구자가 모델 편향성(WinoBias 사례에서 발견한 역스케일링 문제)과 같은 중요한 AI 안전 이슈를 발견하고 검증할 수 있다.
실천 포인트
대규모 언어 모델을 평가해야 하는 연구팀이나 개발팀은 Evaluation on the Hub의 zero-shot text classification 태스크를 활용하면 자체 GPU 인프라 구축 없이도 모델 편향성, 성능 역스케일링 같은 문제를 저비용으로 탐지할 수 있으며, WinoBias와 같은 구조적 데이터셋을 Winograd 스키마로 변환하여 여러 모델에 동시에 평가할 수 있다.