피드로 돌아가기
Llama 3.1 - 405B, 70B & 8B with multilinguality and long context
Hugging Face BlogHugging Face Blog
AI/ML

Meta가 Llama 3.1을 3가지 크기(8B, 70B, 405B)로 출시해 컨텍스트 길이를 8K에서 128K 토큰으로 확장하고 8개 언어 지원 추가

Llama 3.1 - 405B, 70B & 8B with multilinguality and long context

2024년 7월 23일12intermediate

Context

이전 Llama 3는 8K 토큰의 제한된 컨텍스트 길이로 장문 처리에 제약이 있었고, 영어 중심의 단일언어 모델로 다언어 애플리케이션 구축에 한계가 있었다. 또한 단일 405B 대형 모델 없어 합성 데이터 생성과 증류(distillation)에 제약이 있었다.

Technical Solution

  • 컨텍스트 길이 16배 확장: 8K 토큰에서 128K 토큰으로 증가하되, Grouped-Query Attention(GQA) 활용해 메모리 효율성 유지
  • 3단계 모델 계층 제공: 8B는 소비자급 GPU 배포, 70B는 대규모 AI 네이티브 애플리케이션, 405B는 합성 데이터·LLM-as-a-Judge·증류 용도
  • 다언어 지원 확대: 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 8개 언어 지원
  • 도구 호출 기능 추가: Instruct 모델을 검색·Wolfram Alpha 수학 추론 도구 학습으로 에이전트 용도 최적화
  • 기본·Instruct 튜닝 변형 제공: 각 모델 크기별로 사전학습 기본 모델과 지시 따르기용 튜닝 모델 2종 제공
  • 보안 모델 추가 배포: Llama Guard 3(안전 콘텐츠 분류, 128K 컨텍스트 지원)와 Prompt Guard(279M 파라미터, 프롬프트 인젝션·재일브레이크 탐지)
  • 라이선스 완화: 합성 데이터 생성과 증류를 다른 모델과 함께 수행 가능하도록 허용

Impact

15조 개 이상의 토큰으로 학습(39.3M GPU 시간: 8B는 1.46M, 70B는 7.0M, 405B는 30.84M), Instruct 모델은 2,500만 개의 합성 생성 예제로 지도 미세조정 및 인간 피드백 강화학습 적용, 메모리 요구사항: 8B는 FP16에서 16GB·FP8에서 8GB·INT4에서 4GB, 70B는 FP16에서 140GB·FP8에서 70GB·INT4에서 35GB, 405B는 FP16에서 810GB·FP8에서 405GB·INT4에서 203GB

Key Takeaway

컨텍스트 길이 16배 확장과 다언어 지원을 통해 단일 모델 시리즈로 소비자급부터 엔터프라이즈급까지 다양한 배포 시나리오를 커버 가능해졌으며, 합성 데이터 생성과 증류를 명시적으로 허용한 라이선스는 대형 모델을 소형 모델로 압축하는 산업 표준 패턴을 가능하게 한다.


LLM 기반 애플리케이션 개발자는 Llama 3.1의 8B 모델을 소비자급 GPU(8GB VRAM, FP8 량자화)에 배포하면 개발 및 프로토타이핑 비용을 절감하고, 405B 모델로 생성한 합성 데이터를 사용해 8B·70B 모델을 미세조정하면 특정 도메인 성능을 향상시킬 수 있으며, 128K 토큰 컨텍스트를 활용해 장문 문서 분석·요약·다국어 처리가 가능하다.

원문 읽기