피드로 돌아가기
Welcome Llama 3 - Meta's new open LLM
Hugging Face BlogHugging Face Blog
AI/ML

Meta가 Llama 3 공개 언어모델을 출시해 어휘 크기 4배 확대(32K→128K 토큰)와 8배 많은 학습 데이터(15조 토큰) 도입

Welcome Llama 3 - Meta's new open LLM

2024년 4월 18일10intermediate

Context

Llama 2는 32K 토큰의 제한된 어휘 크기로 인해 다국어 처리 효율성이 낮았고, 학습 데이터량도 상대적으로 제한되어 있었다. 새로운 모델이 필요한 상황에서 더 큰 어휘와 많은 학습 데이터를 통한 성능 향상이 요구되었다.

Technical Solution

  • 토크나이저 개선: 어휘 크기를 32K에서 128K로 확대해 텍스트 인코딩 효율성과 다국어 처리 능력 강화
  • 모델 아키텍처 변경: 8B 버전에 Grouped-Query Attention(GQA) 적용으로 더 긴 컨텍스트 처리 효율화
  • 대규모 학습 데이터 도입: 15조 토큰 규모의 공개 온라인 데이터로 학습(Llama 2 대비 약 8배 증량)
  • 학습 방법론 다양화: Instruct 버전에 Supervised Fine-Tuning(SFT), Rejection Sampling, PPO, DPO를 조합 적용
  • 안전성 강화: Llama Guard 2 출시로 입력 프롬프트와 모델 응답의 안전성 분류 기능 추가
  • 모델 크기 옵션: 8B(소비자 GPU 배포용)와 70B(대규모 애플리케이션용) 두 가지 파라미터 크기 제공
  • 라이선스 개선: 재배포, 파인튜닝, 파생 작업 허용하되 명시적 속성 표기 의무화(Llama 3 이름 포함 요구)

Impact

  • 8B 모델 컨텍스트 길이: 8,192 토큰 제공
  • torch.compile() CUDA 그래프 호환성: 추론 속도 약 4배 향상
  • 파인튜닝 소요 시간: 단일 A10G GPU에서 약 4시간(no_robots 데이터셋 기준)
  • 메모리 요구사항: 8B Instruct 버전 약 16GB RAM(RTX 3090, 4090 등 소비자 GPU 지원)

Key Takeaway

어휘 확대와 대규모 데이터 학습은 모델 파라미터 증가를 초래하지만(7B→8B), 다국어 처리와 인코딩 효율성의 근본적 개선을 가능하게 한다. 아키텍처(GQA) 개선과 함께 라이선스 명확화는 오픈소스 모델의 커뮤니티 채택과 상업적 활용을 동시에 촉진하는 전략이다.


LLM 기반 서비스를 개발하는 팀에서 Llama 3를 채택할 때 8B Instruct 버전으로 소비자 GPU(RTX 4090 등)에 직접 배포하거나, 70B 버전으로 프로덕션 규모의 AI 애플리케이션을 구축할 수 있다. transformers 라이브러리의

4.40 이상 버전과 bitsandbytes, PEFT, Flash Attention 2를 조합하면 4비트 양자화와 파라미터 효율적 파인튜닝으로 리소스 제약을 극복할 수 있으며, torch.compile()을 활용하면 추론 속도를 4배 향상시킬 수 있다.

원문 읽기