Falcon-LLM 팀이 Transformer와 State Space Model을 병렬 조합하는 하이브리드 아키텍처로 0.5B~34B 규모의 6가지 모델 계열 개발, 동일 크기 Transformer 모델 대비 4배 입력 처리량과 8배 출력 생성량 달성

Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

2025년 5월 21일9분intermediate

AI 요약

Context

기존 순수 Transformer 기반 언어 모델은 긴 문맥 처리 시 메모리 사용량이 높고 추론 속도가 느린 한계를 가지고 있었다. LLM 개발 분야는 Transformer 아키텍처에 최적화된 기존 학습 관행들에 의존해왔으나, 이러한 관행들이 하이브리드 주의 아키텍처에서도 최적인지 불명확했다.

Technical Solution

Attention과 SSM(State Space Model) 헤드를 병렬로 결합하는 하이브리드 믹서 블록 설계: Attention과 Mamba-2 헤드의 비율을 독립적으로 조정 가능
SSM 특정 파라미터 최적화: 표준 문헌값에서 벗어나 메모리 크기를 확대하여 성능 향상과 미미한 효율성 비용 트레이드오프 확보
Rotary Positional Embeddings(RoPE) 스케일 대폭 증대: 하이브리드 모델의 SSM 부분이 위치 정보를 자체 처리하므로 매우 큰 RoPE 값 적용으로 모델 성능 개선
병렬 조합 방식 채택: SSM과 Attention을 순차 또는 병렬로 조합하는 다양한 설계 중 병렬 방식으로 수렴하여 추론 효율성 극대화
맞춤형 Maximal Update Parametrization(μP) 적용: 0.5B부터 34B까지 모든 모델 규모에서 안정적이고 확장 가능한 학습 동역학 보장
다국어 토크나이저 학습: 18개 언어 네이티브 지원(아랍어, 체코어, 독일어, 영어, 스페인어, 프랑스어, 힌디어, 이탈리아어, 일본어, 한국어, 네덜란드어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스웨덴어, 우르두어, 중국어) 및 100개 이상 언어 확장성 구현

Impact

입력 처리량(Prefill): 길이 256K 문맥에서 Qwen2.5-32B 대비 최대 4배 속도 향상
출력 생성량(Generation): 길이 256K 문맥에서 Qwen2.5-32B 대비 최대 8배 속도 향상
모델 용량 효율성: Falcon-H1-0.5B가 2024년 기준 일반적인 7B 모델 수준의 성능 제공, Falcon-H1-1.5B-Deep이 현재 주요 7B~10B 모델들과 경쟁 가능한 성능 달성
문맥 길이: 256K 토큰 문맥 길이 지원

Key Takeaway

SSM과 Attention의 하이브리드 설계에서는 기존 순수 Transformer 관행을 무비판적으로 재사용하기보다 각 아키텍처 성분에 맞는 파라미터(SSM 메모리 크기, RoPE 스케일 등)를 독립적으로 탐색하고 최적화해야 한다. 이는 새로운 아키텍처 변경 시 기초 원리부터 재검토하는 실증적 접근 방식의 중요성을 보여준다.

실천 포인트

엣지 디바이스나 저리소스 환경에 배포해야 하는 팀은 Falcon-H1의 하이브리드 Attention-SSM 구조를 참고하여, 기존 순수 Transformer 모델 대신 작은 파라미터 규모의 하이브리드 모델을 적용하면 동등 이상의 작업 성능을 유지하면서 메모리 사용량과 추론 지연시간을 동시에 감소시킬 수 있다.

태그

#State-Space Models #Language Models #Hybrid Architecture #Multilingual NLP #Inference Optimization

원문 읽기