피드로 돌아가기
PrismML debuts energy-sipping 1-bit LLM in bid to free AI from the cloud
The RegisterThe Register
AI/ML

메모리 1.15GB로 구현한 1-bit LLM, 온디바이스 AI의 새로운 기준

PrismML debuts energy-sipping 1-bit LLM in bid to free AI from the cloud

Thomas Claburn2026년 4월 4일3advanced

Context

Transformer 기반 모델의 가중치 정밀도 증가에 따른 메모리 점유율 상승 문제. 고정밀도 모델의 높은 전력 소모와 메모리 대역폭 요구량으로 인한 클라우드 의존성 심화. 모바일 및 엣지 디바이스의 하드웨어 제약으로 인한 배포 한계.

Technical Solution

  • 각 가중치를 {−1, +1} 부호로만 표현하고 그룹별 공유 스케일 팩터를 사용하는 1-bit 아키텍처 설계
  • 추론 능력 손실 없는 신경망 압축을 위해 수학적 이론 기반의 새로운 양자화 기법 적용
  • 기존 저비트 양자화의 고질적 문제인 명령어 수행 능력 저하 및 다단계 추론 오류 해결
  • MLX 및 llama.cpp CUDA를 통한 Apple 디바이스와 Nvidia GPU 네이티브 실행 환경 지원
  • 모델 크기 대비 추론 효율을 측정하는 intelligence density 지표 도입을 통한 성능 검증

Impact

  • 메모리 점유율 1.15 GB 달성
  • 기존 풀 정밀도 모델 대비 지능 밀도(Intelligence Density) 10배 이상 향상
  • 모델 크기 14배 감소
  • 추론 속도 8배 향상
  • 엣지 하드웨어 기준 에너지 효율 5배 개선
  • Bonsai 8B 기준 Intelligence Density 1.06/GB 기록 (Qwen3 8B 0.10/GB 대비 우세)

Key Takeaway

단순한 파라미터 수 증설보다 연산 단위당 지능 효율(Intelligence per unit of compute)을 극대화하는 설계 방향이 온디바이스 AI의 핵심 전략임.


메모리 및 전력 제약이 심한 엣지 환경 배포 시, 단순 양자화 대신 1-bit 기반 아키텍처 도입을 검토할 것

원문 읽기