Google이 Gemma 2를 출시해 9B/27B 두 가지 크기의 오픈 LLM 모델을 제공하며 슬라이딩 윈도우 어텐션과 로짓 소프트 캐핑으로 성능 개선

Welcome Gemma 2 - Google’s new open LLM

2024년 6월 27일12분intermediate

AI 요약

Context

LLM 모델의 크기가 커질수록 학습 데이터, 컨텍스트 길이, 어텐션 메커니즘의 효율성이 모델 성능의 주요 제약 요소가 된다. 기존 Gemma 1 대비 더 높은 성능과 실용성을 갖춘 오픈 모델이 필요했다.

Technical Solution

학습 데이터 2배 확대: 27B 모델은 13조 토큰, 9B 모델은 8조 토큰으로 증가해 웹 데이터, 코드, 수학 데이터로 구성
슬라이딩 윈도우 어텐션 적용: 전체 레이어의 절반(홀수 번째)에만 슬라이딩 윈도우(로컬 4096 토큰) 적용하고, 나머지 레이어에서는 전체 콘텍스트(8192 토큰) 어텐션 유지
로짓 소프트 캐핑 구현: logits ← soft_cap ∗ tanh(logits/soft_cap) 수식으로 어텐션 로짓은 50.0, 최종 로짓은 30.0으로 제한해 학습 안정성 향상
지식 증류 활용: 9B 모델은 더 큰 티처 모델로부터 증류해 사전학습, 27B는 스크래치부터 학습
Instruction 튜닝 최적화: SFT, 더 큰 모델로부터의 증류, RLHF(대화 능력 중심의 리워드 모델), 그리고 WARP 모델 머징을 조합
Google Cloud TPU 기반 학습: 27B는 TPU v5p, 9B는 TPU v4에서 JAX와 ML Pathways 사용
허깅페이스 Text Generation Inference 지원: 연속 배칭, 토큰 스트리밍, 텐서 병렬 처리로 다중 GPU 추론 가능

Impact

아티클에서 정량적 성능 수치(정확도, 처리량, 레이턴시 개선율 등)를 명시하지 않았다.

Key Takeaway

오픈 LLM에서 단순한 모델 크기 증가보다 어텐션 메커니즘(슬라이딩 윈도우), 학습 안정화 기법(소프트 캐핑), 지식 증류 등 구체적인 기술 개선이 성능과 실용성을 결정한다. 또한 추론 최적화와 에코시스템 통합(Text Generation Inference, 허깅페이스 허브)이 실제 프로덕션 배포의 핵심이다.

실천 포인트

LLM을 자체 개발하거나 파인튜닝할 때, 슬라이딩 윈도우 어텐션을 레이어 일부에만 적용하고 전체 콘텍스트 어텐션을 나머지에 유지하면 메모리 오버헤드를 줄이면서 장문맥 성능을 보존할 수 있다. 또한 로짓 소프트 캐핑(tanh 정규화)을 적용하면 학습 안정성을 개선하되, Flash Attention 최적화가 불가능해지므로 추론 단계와 학습 단계 간 구현 전략을 달리해야 한다.

태그

#Model optimization #Open Source #Knowledge Distillation #LLM #Attention Mechanism

원문 읽기