피드로 돌아가기
Google battles Chinese open-weights models with Gemma 4
The RegisterThe Register
AI/ML

Apache 2.0 전환과 MoE 설계로 기업용 AI 시장 공략하는 Gemma 4

Google battles Chinese open-weights models with Gemma 4

Tobias Mann2026년 4월 2일4intermediate

Context

중국계 Open-weights LLM의 급격한 성장으로 인한 시장 점유율 위협. 기존 Gemma 라이선스의 엄격한 제약 조건으로 인한 기업 도입 진입장벽 존재. 온디바이스 환경의 제한된 컴퓨팅 자원 및 배터리 효율 문제 해결 필요.

Technical Solution

  • 기업 사용성 확대를 위해 기존 전용 라이선스에서 유연한 Apache 2.0 라이선스로 전환
  • 추론 속도 최적화를 위해 128개 전문가 중 3.8B 파라미터만 활성화하는 Mixture of Experts (MoE) 아키텍처 적용
  • 연산 효율 개선을 위해 Per-layer Embeddings (PLE) 기술을 도입하여 실제 파라미터 대비 유효 컴퓨팅 사이즈 축소
  • 텍스트 외에 비디오 및 오디오 입력을 직접 처리하는 Native Multimodal 설계 채택
  • 256,000 토큰의 Context Window를 확보하여 로컬 코드 어시스턴트 구현 최적화
  • vLLM, SGLang, Llama.cpp 등 다양한 추론 프레임워크와의 Day-one 호환성 확보

Impact

  • 31B 모델 기준 16-bit 정밀도에서 단일 80GB H100 GPU 구동 가능
  • 4-bit 양자화 시 24GB VRAM (RTX 4090 등) 환경에서 실행 가능
  • 2B 및 4B 모델의 유효 파라미터 사이즈를 각각 2.3B 및 4.5B 수준으로 최적화
  • 전체 라인업에 걸쳐 최소 128,000에서 최대 256,000 토큰의 Context Window 제공

Key Takeaway

모델 성능과 추론 비용의 트레이드오프를 MoE 구조와 PLE 기술로 해결하여 하드웨어 제약 환경에서도 고성능 AI를 구현하는 전략적 설계.


저지연 응답이 필수적인 온디바이스 환경에서는 Dense 모델보다 MoE 기반 26B 모델의 VRAM 적재 가능 여부를 우선 검토할 것

원문 읽기