피드로 돌아가기
Dev.toAI/ML
원문 읽기
Snapdragon 8 Gen 2 기반 Android 기기에서 7B LLM Local 구동 및 30 TPS 달성
Run a Local LLM on Android: What RAM Tier You Need and Which Models Actually Work
AI 요약
Context
클라우드 의존성 없는 lightweight workflow triggers 구현을 위해 모바일 온디바이스 LLM 도입 필요성 증대. 한정된 Mobile RAM 용량과 Thermal Throttling 제약으로 인한 효율적 모델 선택 및 Quantization 전략 요구됨.
Technical Solution
- RAM Tier별 모델 파라미터 최적화: 6GB(1B~3B), 8GB(3B~7B), 12GB+(7B 이상)로 구분하여 메모리 오버플로우 방지
- Q4_K_M Quantization 적용을 통한 메모리 풋프린트 50% 절감 및 모델 추론 능력 유지
- KV Cache 설정을 q4_0로 변경하여 추론 성능 및 처리 속도 극대화
- Off Grid 앱을 통한 NPU Routing 자동화로 Snapdragon 하드웨어 가속 최적화
- GGUF 포맷 기반의 모델 임포트 구조를 통한 범용적 모델 배포 환경 구축
실천 포인트
1. 대상 기기 RAM 용량 확인 후 모델 파라미터 규모 결정 (8GB 이상 권장)
2. Q4 또는 Q5 수준의 Quantization 적용 여부 검토
3. KV Cache 정밀도를 q4_0로 설정하여 추론 병목 제거
4. 단순 작업은 Local LLM으로, 복잡한 추론 및 Long Context 작업은 Cloud pipeline으로 분기하는 하이브리드 구조 설계