IBM이 Granite 4.0 Nano 모델군을 출시해 350M~1.5B 파라미터 범위에서 Qwen, Gemma 등 경쟁 모델 대비 벤치마크 성능 향상

Granite 4.0 Nano: Just how small can you go?

2025년 10월 28일6분intermediate

AI 요약

Context

에지 및 온디바이스 애플리케이션에서 동작할 수 있는 소형 언어 모델의 성능과 크기 간 트레이드오프가 기술 과제였습니다.

Technical Solution

hybrid-SSM 기반 아키텍처 도입: 1.5B 및 350M 파라미터 모델(Granite 4.0 H 1B, H 350M)에 적용해 전통적 Transformer 구조 대비 성능 향상
15T 토큰 기반 학습 데이터셋 활용: Granite 4.0 원본 모델과 동일한 개선된 학습 방법론 및 파이프라인 적용
Apache 2.0 라이선스 배포: vLLM, llama.cpp, MLX 등 주요 런타임에서 네이티브 아키텍처 지원
전통적 Transformer 변형 모델 병렬 제공: Llama.cpp 등 hybrid 아키텍처 최적화 지원이 부족한 환경용 1B, 350M 모델 제공
ISO 42001 인증: 책임 있는 모델 개발 표준 준수

Impact

일반 벤치마크(General Knowledge, Math, Code, Safety)에서 0.2B~2B 파라미터 범위의 경쟁 모델 대비 정확도 향상을 달성했습니다. IFEval 및 Berkeley Function Calling Leaderboard v3(BFCLv3) 벤치마크에서 유사 규모 모델 대비 우수한 성능을 기록했습니다.

Key Takeaway

서브-10억 파라미터 범위에서 hybrid-SSM 아키텍처와 대규모 토큰 기반 학습의 조합으로 전통적 구조 대비 성능 향상을 달성할 수 있으며, 에지 애플리케이션 배포 시 런타임 선택지 다양화를 통해 실제 운영 환경의 제약을 수용해야 합니다.

실천 포인트

에지 디바이스나 온프레미스 환경에서 언어 모델을 배포하는 팀은 Granite

4.0 Nano의 hybrid-SSM 아키텍처 모델(

1.5B, 350M)을 우선 검토하되, 기존 인프라에서 hybrid 아키텍처 지원이 제한적이면 전통적 Transformer 변형 모델로 대체해 추론 성능과 배포 호환성 간의 균형을 맞춘 모델 선택이 가능합니다.

태그

#Granite #Model optimization #Architecture #Edge Computing #LLM

원문 읽기