피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Meta가 Llama 3 공개 언어모델을 출시해 어휘 크기 4배 확대(32K→128K 토큰)와 8배 많은 학습 데이터(15조 토큰) 도입
Welcome Llama 3 - Meta's new open LLM
AI 요약
Context
Llama 2는 32K 토큰의 제한된 어휘 크기로 인해 다국어 처리 효율성이 낮았고, 학습 데이터량도 상대적으로 제한되어 있었다. 새로운 모델이 필요한 상황에서 더 큰 어휘와 많은 학습 데이터를 통한 성능 향상이 요구되었다.
Technical Solution
- 토크나이저 개선: 어휘 크기를 32K에서 128K로 확대해 텍스트 인코딩 효율성과 다국어 처리 능력 강화
- 모델 아키텍처 변경: 8B 버전에 Grouped-Query Attention(GQA) 적용으로 더 긴 컨텍스트 처리 효율화
- 대규모 학습 데이터 도입: 15조 토큰 규모의 공개 온라인 데이터로 학습(Llama 2 대비 약 8배 증량)
- 학습 방법론 다양화: Instruct 버전에 Supervised Fine-Tuning(SFT), Rejection Sampling, PPO, DPO를 조합 적용
- 안전성 강화: Llama Guard 2 출시로 입력 프롬프트와 모델 응답의 안전성 분류 기능 추가
- 모델 크기 옵션: 8B(소비자 GPU 배포용)와 70B(대규모 애플리케이션용) 두 가지 파라미터 크기 제공
- 라이선스 개선: 재배포, 파인튜닝, 파생 작업 허용하되 명시적 속성 표기 의무화(Llama 3 이름 포함 요구)
Impact
- 8B 모델 컨텍스트 길이: 8,192 토큰 제공
- torch.compile() CUDA 그래프 호환성: 추론 속도 약 4배 향상
- 파인튜닝 소요 시간: 단일 A10G GPU에서 약 4시간(no_robots 데이터셋 기준)
- 메모리 요구사항: 8B Instruct 버전 약 16GB RAM(RTX 3090, 4090 등 소비자 GPU 지원)
Key Takeaway
어휘 확대와 대규모 데이터 학습은 모델 파라미터 증가를 초래하지만(7B→8B), 다국어 처리와 인코딩 효율성의 근본적 개선을 가능하게 한다. 아키텍처(GQA) 개선과 함께 라이선스 명확화는 오픈소스 모델의 커뮤니티 채택과 상업적 활용을 동시에 촉진하는 전략이다.
실천 포인트
LLM 기반 서비스를 개발하는 팀에서 Llama 3를 채택할 때 8B Instruct 버전으로 소비자 GPU(RTX 4090 등)에 직접 배포하거나, 70B 버전으로 프로덕션 규모의 AI 애플리케이션을 구축할 수 있다. transformers 라이브러리의
4.40 이상 버전과 bitsandbytes, PEFT, Flash Attention 2를 조합하면 4비트 양자화와 파라미터 효율적 파인튜닝으로 리소스 제약을 극복할 수 있으며, torch.compile()을 활용하면 추론 속도를 4배 향상시킬 수 있다.