피드로 돌아가기
Llama can now see and run on your device - welcome Llama 3.2
Hugging Face BlogHugging Face Blog
AI/ML

Meta가 Llama 3.2를 출시해 멀티모달 비전 기능과 1B/3B 소형 온디바이스 모델 추가

Llama can now see and run on your device - welcome Llama 3.2

2024년 9월 25일9intermediate

Context

기존 Llama 모델은 텍스트 전용이었으며, 엣지 디바이스에서 실행할 수 있는 초소형 모델이 부족했다. 대규모 멀티모달 작업을 처리하려면 고사양 인프라가 필요했다.

Technical Solution

  • 멀티모달 비전 기능 추가: Llama 3.1 LLM에 비전 타워와 이미지 어댑터를 결합한 아키텍처로 이미지-텍스트 입력 처리 가능
  • 두 가지 비전 모델 크기 제공: 11B(컨슈머 GPU 배포), 90B(대규모 애플리케이션)
  • 텍스트 모델 동결 학습: Llama 3.1 8B와 70B를 비전 학습 중 동결해 텍스트 성능 보존
  • 소형 온디바이스 모델 개발: 1B와 3B 크기의 텍스트 전용 모델 추가로 엣지 디바이스 배포 가능
  • 멀티모달 안전성 강화: Llama Guard 3에 비전 지원 추가해 이미지 기반 악의적 프롬프트 탐지 가능
  • 128k 토큰 컨텍스트 길이: 다중턴 대화에서 마지막 이미지만 처리해 메모리 효율화
  • 대규모 학습 데이터셋: 60억 개의 이미지-텍스트 쌍으로 학습

Impact

  • 11B 모델 MMMU 벤치마크: Base 41.7 → Instruction-tuned 50.7점(CoT)
  • 90B 모델 MMMU 벤치마크: Base 49.3 → Instruction-tuned 60.3점(CoT)
  • VQAv2: 11B Base 66.8 → Instruction-tuned 75.2
  • DocVQA: 11B Base 62.3 → Instruction-tuned 88.4
  • AI2D: 11B Base 62.4 → Instruction-tuned 91.1

Key Takeaway

비전 타워를 추가하면서 기존 텍스트 모델을 동결해 멀티모달 능력을 확보하면서도 텍스트 성능을 보존할 수 있다. 초소형 온디바이스 모델의 추가 제공으로 엣지 배포와 클라우드 대규모 처리를 동시에 지원하는 모델 라인업 다양화 전략의 효과.


비전 기반 업무(문서 QA, 이미지 분석)를 처리해야 하는 팀에서 Llama 3.2 11B/90B를 도입하면 멀티모달 추론 파이프라인을 구축할 수 있고, 온디바이스 배포가 필요한 경우 1B/3B 모델로 로컬 실행 환경을 제공해 클라우드 비용과 지연시간을 절감할 수 있다.

원문 읽기