피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Falcon-LLM 팀이 Transformer와 State Space Model을 병렬 조합하는 하이브리드 아키텍처로 0.5B~34B 규모의 6가지 모델 계열 개발, 동일 크기 Transformer 모델 대비 4배 입력 처리량과 8배 출력 생성량 달성
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance
AI 요약
Context
기존 순수 Transformer 기반 언어 모델은 긴 문맥 처리 시 메모리 사용량이 높고 추론 속도가 느린 한계를 가지고 있었다. LLM 개발 분야는 Transformer 아키텍처에 최적화된 기존 학습 관행들에 의존해왔으나, 이러한 관행들이 하이브리드 주의 아키텍처에서도 최적인지 불명확했다.
Technical Solution
- Attention과 SSM(State Space Model) 헤드를 병렬로 결합하는 하이브리드 믹서 블록 설계: Attention과 Mamba-2 헤드의 비율을 독립적으로 조정 가능
- SSM 특정 파라미터 최적화: 표준 문헌값에서 벗어나 메모리 크기를 확대하여 성능 향상과 미미한 효율성 비용 트레이드오프 확보
- Rotary Positional Embeddings(RoPE) 스케일 대폭 증대: 하이브리드 모델의 SSM 부분이 위치 정보를 자체 처리하므로 매우 큰 RoPE 값 적용으로 모델 성능 개선
- 병렬 조합 방식 채택: SSM과 Attention을 순차 또는 병렬로 조합하는 다양한 설계 중 병렬 방식으로 수렴하여 추론 효율성 극대화
- 맞춤형 Maximal Update Parametrization(μP) 적용: 0.5B부터 34B까지 모든 모델 규모에서 안정적이고 확장 가능한 학습 동역학 보장
- 다국어 토크나이저 학습: 18개 언어 네이티브 지원(아랍어, 체코어, 독일어, 영어, 스페인어, 프랑스어, 힌디어, 이탈리아어, 일본어, 한국어, 네덜란드어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스웨덴어, 우르두어, 중국어) 및 100개 이상 언어 확장성 구현
Impact
- 입력 처리량(Prefill): 길이 256K 문맥에서 Qwen2.5-32B 대비 최대 4배 속도 향상
- 출력 생성량(Generation): 길이 256K 문맥에서 Qwen2.5-32B 대비 최대 8배 속도 향상
- 모델 용량 효율성: Falcon-H1-0.5B가 2024년 기준 일반적인 7B 모델 수준의 성능 제공, Falcon-H1-1.5B-Deep이 현재 주요 7B~10B 모델들과 경쟁 가능한 성능 달성
- 문맥 길이: 256K 토큰 문맥 길이 지원
Key Takeaway
SSM과 Attention의 하이브리드 설계에서는 기존 순수 Transformer 관행을 무비판적으로 재사용하기보다 각 아키텍처 성분에 맞는 파라미터(SSM 메모리 크기, RoPE 스케일 등)를 독립적으로 탐색하고 최적화해야 한다. 이는 새로운 아키텍처 변경 시 기초 원리부터 재검토하는 실증적 접근 방식의 중요성을 보여준다.
실천 포인트
엣지 디바이스나 저리소스 환경에 배포해야 하는 팀은 Falcon-H1의 하이브리드 Attention-SSM 구조를 참고하여, 기존 순수 Transformer 모델 대신 작은 파라미터 규모의 하이브리드 모델을 적용하면 동등 이상의 작업 성능을 유지하면서 메모리 사용량과 추론 지연시간을 동시에 감소시킬 수 있다.