Meta가 Llama 3 공개 언어모델을 출시해 어휘 크기 4배 확대(32K→128K 토큰)와 8배 많은 학습 데이터(15조 토큰) 도입

Welcome Llama 3 - Meta's new open LLM

2024년 4월 18일10분intermediate

AI 요약

Context

Llama 2는 32K 토큰의 제한된 어휘 크기로 인해 다국어 처리 효율성이 낮았고, 학습 데이터량도 상대적으로 제한되어 있었다. 새로운 모델이 필요한 상황에서 더 큰 어휘와 많은 학습 데이터를 통한 성능 향상이 요구되었다.

토크나이저 개선: 어휘 크기를 32K에서 128K로 확대해 텍스트 인코딩 효율성과 다국어 처리 능력 강화
모델 아키텍처 변경: 8B 버전에 Grouped-Query Attention(GQA) 적용으로 더 긴 컨텍스트 처리 효율화
대규모 학습 데이터 도입: 15조 토큰 규모의 공개 온라인 데이터로 학습(Llama 2 대비 약 8배 증량)
학습 방법론 다양화: Instruct 버전에 Supervised Fine-Tuning(SFT), Rejection Sampling, PPO, DPO를 조합 적용
안전성 강화: Llama Guard 2 출시로 입력 프롬프트와 모델 응답의 안전성 분류 기능 추가
모델 크기 옵션: 8B(소비자 GPU 배포용)와 70B(대규모 애플리케이션용) 두 가지 파라미터 크기 제공
라이선스 개선: 재배포, 파인튜닝, 파생 작업 허용하되 명시적 속성 표기 의무화(Llama 3 이름 포함 요구)

어휘 확대와 대규모 데이터 학습은 모델 파라미터 증가를 초래하지만(7B→8B), 다국어 처리와 인코딩 효율성의 근본적 개선을 가능하게 한다. 아키텍처(GQA) 개선과 함께 라이선스 명확화는 오픈소스 모델의 커뮤니티 채택과 상업적 활용을 동시에 촉진하는 전략이다.

실천 포인트

LLM 기반 서비스를 개발하는 팀에서 Llama 3를 채택할 때 8B Instruct 버전으로 소비자 GPU(RTX 4090 등)에 직접 배포하거나, 70B 버전으로 프로덕션 규모의 AI 애플리케이션을 구축할 수 있다. transformers 라이브러리의

4.40 이상 버전과 bitsandbytes, PEFT, Flash Attention 2를 조합하면 4비트 양자화와 파라미터 효율적 파인튜닝으로 리소스 제약을 극복할 수 있으며, torch.compile()을 활용하면 추론 속도를 4배 향상시킬 수 있다.

태그