피드로 돌아가기
1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM
GeekNewsGeekNews
AI/ML

1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

1-bit Bonsai LLM이 8B 모델을 1.15GB로 압축하여 범용 하드웨어에서 190t/s 추론 속도를 달성함

xguru2026년 4월 2일4advanced

Context

기존 양자화 모델과 달리 처음부터 1비트 목표로 학습된 Microsoft BitNet 계열 아키텍처임. INT4 양자화 대비 추론 효율성이 크게 향상되었으며, 범용 하드웨어에서 실행 가능한 최초의 상업적 1비트 LLM으로 평가됨.

Technical Solution

  • 1.125비트 프레이밍: 1비트 가중치 + 128개 그룹당 공유 16비트 스케일 구성
  • llama.cpp 기반 로컬 추론 지원으로 별도 서버 없이 실행 가능함
  • Boolean variation 개념 도입하여 미분을 이진 형태로 정의하고 직접 역전파 수행
  • KV 캐시 정밀도 손실 없이 유지하여 출력 품질 보존
  • AVX2 SIMD 최적화 적용으로 CPU 환경에서도 12t/s throughput 달성

Impact

RTX 3090에서 5개 병렬 요청 시 190t/s 속도로 4GiB VRAM만 사용함. 1.2GB 크기로 iPhone에서도 실행 가능하며, 8B 모델을 1.15GB로 압축하여 100B 모델도 64GB RAM 내에서 실행 가능할 것으로 추정됨. SQL 벤치마크에서 25개 중 8개 통과, 0개 실패, 17개 오류 기록함.

Key Takeaway

1비트 가중치와 그룹 스케일링 구조는 범용 하드웨어에서 기존 양자화 대비 월등한 추론 효율성을 제공하며, 훈련 단계부터 이진화를 목표로 하는 접근이 단순 후처리 양자화와 근본적으로 다름.


1-bit LLM을 로컬 배포할 경우 llama.cpp와 AVX2 빌드를 필수로 적용해야 함. CPU-only 환경에서도 12t/s 이상 throughput 확보 가능하며, 모델 크기가 1.15GB 수준으로 RAM 4GB 이상 환경에서 안정적으로 실행됨. KV 캐시 정밀도 유지 설정도 함께 적용할 것.

원문 읽기