피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Bonsai Image 4B - 로컬 기기용 1비트/터너리 이미지 생성 모델
1-bit 양자화 통한 4B 모델 크기 8.3배 절감 및 iPhone 온디바이스 실행 구현
AI 요약
Context
고성능 이미지 생성 모델인 FLUX.2 Klein 4B의 거대한 가중치 크기로 인한 로컬 하드웨어 메모리 부족 문제 발생. 특히 확산 트랜스포머가 모델의 대부분을 차지하며 런타임 메모리 압박과 대역폭 병목을 유발하는 한계 존재.
Technical Solution
- FLUX.2 Klein 4B 아키텍처를 유지하며 Diffusion Transformer 가중치를 1-bit 또는 Ternary 표현으로 치환하는 양자화 전략 채택
- 1-bit 변형의 경우 Binary {−1, +1} 가중치와 FP16 그룹 단위 Scaling Factor를 조합하여 유효 비트 1.125bit 구현
- Ternary 변형은 {−1, 0, +1} 가중치를 통해 0 상태를 추가함으로써 시각적 품질과 Prompt Fidelity를 보완하는 설계 적용
- 정밀도 민감도가 높은 5%의 Projection Layer를 FP16으로 유지하여 양자화로 인한 성능 급락을 방지하는 Hybrid 정밀도 구조 설계
- Apple Silicon의 MLX low-bit 경로 및 CUDA의 Gemlite low-bit GEMM 커널을 활용한 하드웨어 가속 최적화
실천 포인트
- 온디바이스 배포 시 모델의 가장 큰 병목 지점인 Transformer 가중치의 정밀도를 1-bit/Ternary 수준으로 낮추는 방안 검토 - 양자화 후 성능 저하가 심한 레이어를 찾아 Selective Precision(선택적 정밀도)을 적용하여 품질 유지 - 타겟 하드웨어(Apple Silicon, CUDA) 전용 Low-bit GEMM 커널 활용 여부 확인