Mistral이 Mixture of Experts 아키텍처로 Mixtral 8x7B를 출시해 45B 파라미터로 70B 밀집 모델 수준의 추론 속도 달성

Welcome Mixtral - a SOTA Mixture of Experts on Hugging Face

2023년 12월 11일10분intermediate

AI 요약

Context

기존 오픈소스 대형 언어 모델은 파라미터 수에 비례하여 추론 속도가 느려지는 한계가 있었다. 높은 성능을 유지하면서도 빠른 추론을 원하려면 더 효율적인 아키텍처가 필요했다.

Technical Solution

Feed-Forward 계층을 Mixture of Experts 계층으로 대체: 8개의 전문가 모듈 중 각 타임스텝마다 2개만 선택적으로 활성화
라우터 네트워크 도입: 각 토큰마다 가장 효율적으로 처리할 전문가를 동적으로 선택
하이브리드 파라미터 구조: 공유 계층은 7B 모델과 동일하게 유지하고 Feed-Forward 블록만 복제해 총 45B 파라미터 구성
32k 토큰 컨텍스트 길이 지원: Mistral 7B 대비 확장된 입력 처리 능력
다중 언어 및 코딩 지원: 영어, 프랑스어, 독일어, 스페인어, 이탈리아어 5개 언어 및 HumanEval 40.2% 코딩 성능
Hugging Face 생태계 통합: Transformers 4.36+, bitsandbytes 4비트 양자화, PEFT, Flash Attention 2 지원

Impact

추론 속도: 12B 밀집 모델 수준의 디코딩 속도 달성
벤치마크 성능: Llama 2 70B를 상회하고 GPT-3.5와 대부분 동일하거나 우수한 성능
MT-Bench 기준 Mixtral Instruct가 모든 오픈소스 모델 중 최고 점수 달성
VRAM 요구사항: float16 90GB, 8비트 45GB, 4비트 23GB

Key Takeaway

Mixture of Experts는 전체 파라미터 수를 증가시키지 않으면서 특정 계층의 선택적 활성화로 추론 효율을 극대화할 수 있는 아키텍처 패턴이다. 양자화 최적화 방법론이 아직 초기 단계인 점과 높은 VRAM 요구사항은 MoE 아키텍처의 현재 제약사항이다.

실천 포인트

대규모 언어 모델 배포를 계획하는 엔지니어는 Mixtral의 4비트 양자화 모드를 사용해 A100 또는 A6000 GPU에서 23GB VRAM으로 45B 효율 모델을 추론할 수 있으며, Hugging Face Text Generation Inference를 활용하면 연속 배칭과 텐서 병렬화로 처리량을 추가로 향상시킬 수 있다.

태그

#Quantization #Mixtral #Mixture of Experts #LLM #Hugging Face

원문 읽기