Falcon-Edge 팀이 BitNet 아키텍처 기반 1.58비트 양자화 모델을 단일 사전학습으로 bfloat16과 양자화 변형을 동시에 생성해 에지 배포 용이성 확보

Falcon-Edge: A series of powerful, universal, fine-tunable 1.58bit language models.

2025년 5월 15일12분advanced

AI 요약

Context

대규모 언어모델은 본질적으로 자원 집약적이며, 에지 디바이스 배포 수요 증가로 모델 압축 연구가 가속화되고 있다. 기존 접근법(FP8 감소정밀도 학습, 사후 양자화)은 부동소수점 형식 의존성 또는 전체정밀도 학습 후 조정 방식의 한계를 가지고 있다.

Technical Solution

삼원 가중치({-1, 0, 1})를 학습 과정에서 직접 적용: 부동소수점 없이 학습부터 양자화 진행으로 "matmul-free" 설계 실현
단일 사전학습 프로세스로 다중 출력 생성: 비양자화 모델(bfloat16), 기본 BitNet 모델, 사전양자화 BitNet 모델을 한 번의 학습에서 산출
내부 데이터 혼합으로 1.5 Tera Tokens 규모 사전학습 수행: WSD 러닝레이트 스케줄러 적용
정수 8비트 활성화 양자화 메커니즘 구현: activation_norm_quant 함수로 활성화를 int8 형식으로 양자화 후 반정밀도로 복원
가중치 스케일 주입 방식 도입: 사후학습 양자화 대신 비양자화 모델 근사를 위해 양자화 가중치 후 스케일 적용
1B 및 3B 파라미터 크기 제공: 각 크기별 기본 모델 및 지시어 튜닝 모델 제공

Impact

Hugging Face 리더보드 v2 벤치마크에서 동일 크기 모델들과 비교 시 동등 또는 우수 성능 달성.

Key Takeaway

삼원 가중치 직접 학습 방식은 기존의 사후 양자화나 감소정밀도 학습 모두를 우회하는 근본적 패러다임 변화이며, 단일 학습 프로세스에서 여러 모델 변형을 생성하는 것은 사전학습 비용 문제를 해결하면서도 개발자가 응용에 맞게 모델을 선택·파인튜닝할 수 있는 유연성을 제공한다.

실천 포인트

에지 배포를 목표로 하는 팀에서 Falcon-Edge의 단일 학습 출력 전략을 따르면, 양자화 모델과 비양자화 모델을 동시에 확보해 배포 환경(정밀도 필요성, 메모리 제약)에 맞는 선택지를 획득할 수 있으며, 사전양자화된 변형으로 파인튜닝 진입 장벽을 낮출 수 있다.

태그

#Quantization #BitNet #Language Models

원문 읽기