피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Meta가 Llama 3.2를 출시해 멀티모달 비전 기능과 1B/3B 소형 온디바이스 모델 추가
Llama can now see and run on your device - welcome Llama 3.2
AI 요약
Context
기존 Llama 모델은 텍스트 전용이었으며, 엣지 디바이스에서 실행할 수 있는 초소형 모델이 부족했다. 대규모 멀티모달 작업을 처리하려면 고사양 인프라가 필요했다.
Technical Solution
- 멀티모달 비전 기능 추가: Llama 3.1 LLM에 비전 타워와 이미지 어댑터를 결합한 아키텍처로 이미지-텍스트 입력 처리 가능
- 두 가지 비전 모델 크기 제공: 11B(컨슈머 GPU 배포), 90B(대규모 애플리케이션)
- 텍스트 모델 동결 학습: Llama 3.1 8B와 70B를 비전 학습 중 동결해 텍스트 성능 보존
- 소형 온디바이스 모델 개발: 1B와 3B 크기의 텍스트 전용 모델 추가로 엣지 디바이스 배포 가능
- 멀티모달 안전성 강화: Llama Guard 3에 비전 지원 추가해 이미지 기반 악의적 프롬프트 탐지 가능
- 128k 토큰 컨텍스트 길이: 다중턴 대화에서 마지막 이미지만 처리해 메모리 효율화
- 대규모 학습 데이터셋: 60억 개의 이미지-텍스트 쌍으로 학습
Impact
- 11B 모델 MMMU 벤치마크: Base 41.7 → Instruction-tuned 50.7점(CoT)
- 90B 모델 MMMU 벤치마크: Base 49.3 → Instruction-tuned 60.3점(CoT)
- VQAv2: 11B Base 66.8 → Instruction-tuned 75.2
- DocVQA: 11B Base 62.3 → Instruction-tuned 88.4
- AI2D: 11B Base 62.4 → Instruction-tuned 91.1
Key Takeaway
비전 타워를 추가하면서 기존 텍스트 모델을 동결해 멀티모달 능력을 확보하면서도 텍스트 성능을 보존할 수 있다. 초소형 온디바이스 모델의 추가 제공으로 엣지 배포와 클라우드 대규모 처리를 동시에 지원하는 모델 라인업 다양화 전략의 효과.
실천 포인트
비전 기반 업무(문서 QA, 이미지 분석)를 처리해야 하는 팀에서 Llama 3.2 11B/90B를 도입하면 멀티모달 추론 파이프라인을 구축할 수 있고, 온디바이스 배포가 필요한 경우 1B/3B 모델로 로컬 실행 환경을 제공해 클라우드 비용과 지연시간을 절감할 수 있다.