Google이 Gemma 3 모델군을 출시하여 문맥 길이를 128k 토큰으로 확장, 멀티모달 및 140+ 언어 지원 구현

Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM

2025년 3월 12일9분intermediate

AI 요약

Context

Gemma 2는 최대 8k 토큰의 제한된 문맥 길이로 긴 문서 처리에 제약이 있었으며, 텍스트 전용 모달리티만 지원했다. 또한 영어 중심의 언어 커버리지로 다국어 서비스 제공이 제한적이었다.

Technical Solution

문맥 길이 확장: 32k 시퀀스로 사전학습 후 4B, 12B, 27B 모델을 128k 토큰으로 스케일링하여 처음부터 재학습 불필요
위치 임베딩 업그레이드: RoPE 기본 주파수를 10k에서 1M으로 상향, 긴 문맥을 위해 8배 스케일링 적용
KV 캐시 최적화: 슬라이딩 윈도우 인터리브 어텐션으로 로컬 레이어 5개와 글로벌 레이어 1개 인터리브(기존 1:1), 윈도우 크기 4096에서 1024 토큰으로 감소
멀티모달 구현: SigLIP 이미지 인코더 도입으로 텍스트와 이미지 토큰 입력 가능
적응형 이미지 처리: Pan and scan 알고리즘으로 896x896 고정 해상도를 넘어 비정사각형 및 고해상도 이미지 처리
어텐션 메커니즘 분화: 텍스트는 인과 어텐션, 이미지는 마스크 없는 양방향 어텐션 적용
다국어 지원 확대: 사전학습 데이터셋에 다국어 데이터 2배 증량, Gemini 2.0의 262K 엔트리 SentencePiece 토크나이저 도입으로 중국어·일본어·한국어 인코딩 개선

Impact

Gemma-3-4B-IT이 Gemma-2-27B-IT 성능 상회
Gemma-3-27B-IT이 Gemini 1.5-Pro를 벤치마크에서 능가
LMSys Chatbot Arena에서 Gemma 3 27B IT의 Elo 점수 1339 달성, 상위 10 모델 랭킹 진입
메모리 저하 없이 KV 캐시 최적화로 메모리 절감

Key Takeaway

모델 스케일을 극대화하지 않고 효율적인 학습 및 인코딩 전략(점진적 문맥 확장, 어텐션 분화, 토크나이저 최적화)으로 성능과 효율성을 동시에 달성할 수 있다. 멀티모달·다국어 지원은 데이터셋 규모 확대와 아키텍처 수준의 섬세한 튜닝으로 구현 가능하다.

실천 포인트

오픈 소스 LLM을 개발하거나 확장할 때 RoPE 기본 주파수 조정과 슬라이딩 윈도우 인터리브 어텐션 패턴을 적용하면 문맥 길이를 16배 확장(8k→128k)하면서 학습 비용을 증가시키지 않을 수 있다. 또한 이미지 입력 지원이 필요한 경우 SigLIP 같은 경량 비전 인코더를 도입하고 양방향 어텐션을 선택적으로 적용하면 추론 시 비전 인코더를 메모리에서 제거 가능하여 텍스트 전용 모드 선택이 가능하다.

태그

#Context Window #RoPE #Gemma #MultiModal #LLM

원문 읽기