피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Meta가 Llama 2를 오픈소스로 공개하며 상용 라이선스 기반의 7B~70B 파라미터 모델 12개를 Hugging Face에 통합
Llama 2 is here - get it on Hugging Face
AI 요약
Context
기존의 대규모 언어모델은 OpenAI의 ChatGPT 같은 폐쇄 소스 기반 상용 서비스가 대부분이었으며, 오픈소스 모델은 상용 이용이 불가능하거나 성능이 낮은 문제가 있었다.
Technical Solution
- Llama 2 모델 계열 공개: 7B, 13B, 70B 파라미터 규모의 사전학습(pretrained) 및 미세조정(fine-tuned) 모델 12개를 Llama 2 커뮤니티 라이선스로 배포
- 학습 토큰 40% 증가: Llama 1 대비 2,000B 토큰으로 사전학습(Llama 1은 1,000B~1,500B)
- 컨텍스트 길이 4,096 토큰 지원: 더 긴 대화와 정보량을 처리할 수 있도록 확장
- Grouped-Query Attention 도입: 70B 모델의 추론 속도를 향상
- RLHF(Reinforcement Learning from Human Feedback) 기반 대화 최적화: Llama 2-Chat 모델을 대화 애플리케이션용으로 미세조정
- Hugging Face 에코시스템 통합: transformers 4.31 이상에서 직접 사용 가능하며 bitsandbytes(4비트 양자화), PEFT(파라미터 효율 미세조정), safetensors 포맷 지원
- Text Generation Inference 컨테이너 지원: 프로덕션 환경에서의 배포 간소화
Impact
Llama 2-70B는 Open LLM Leaderboard에서 67.87점으로 측정(Falcon-40B 58.07점 대비)하였으며, 인간 평가 기준 ChatGPT와 비교 가능한 성능 달성.
Key Takeaway
상용 라이선스 기반의 오픈소스 대규모 언어모델 공개는 폐쇄 AI 서비스에 대한 접근성 장벽을 제거하며, Hugging Face 같은 통합 플랫폼과의 협력으로 개발자가 즉시 프로덕션 수준의 추론과 미세조정을 수행할 수 있게 한다.
실천 포인트
챗봇이나 대화형 AI 서비스를 구축하는 개발 팀에서 Llama 2-Chat 모델을 Hugging Face transformers와 함께 도입하면, 폐쇄 API 의존 없이 온프레미스 또는 클라우드 환경에서 RLHF 기반 대화 모델을 즉시 배포할 수 있으며, bitsandbytes를 활용해 4비트 양자화로 메모리 사용을 절감할 수 있다.