피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Arm이 KleidiAI를 ExecuTorch 0.7에 기본 활성화하고 SDOT 명령어 최적화로 3~5년 전 구형 디바이스와 Raspberry Pi 5에서도 Llama 3.2 1B 실행 가능
Arm & ExecuTorch 0.7: Bringing Generative AI to the masses
AI 요약
Context
생성형 AI(GenAI) 모델 실행이 최신 플래그십 스마트폰의 강력한 CPU, GPU, NPU에만 국한되어 있었고, 3~5년 전 구형 디바이스나 임베디드 보드에서는 실행이 불가능했다.
Technical Solution
- SDOT(Signed Dot Product) 명령어 활용: Armv8.2 이상 아키텍처에서 8비트 정수 벡터의 효율적 행렬 곱셈 구현으로 Int4 정밀도 LLM 가속
- KleidiAI를 ExecuTorch 0.7에 기본 활성화: XNNPack, MediaPipe, MNN, ONNX Runtime, llama.cpp 등 엣지 AI 프레임워크에 자동 임베딩
- Int4 행렬 곱셈 최적화: Armv8.6 이상의 I8MM 피처와 SDOT 명령어 조합으로 구형 Arm CPU 성능 극대화
- 코드 변경 없는 자동 가속: 개발자가 통합 작업 없이 ExecuTorch와 XNNPack 사용으로 KleidiAI 성능 최적화 자동 적용
Impact
- Galaxy S24+에서 KleidiAI 적용 시 prefill 성능 20% 향상 (350 tokens/sec)
- 동일 디바이스의 decode 성능 40 tokens/sec 달성
- 전 세계 약 30억 개의 Arm 기반 디바이스(전체 디바이스의 72%)에서 SDOT 명령어 지원
Key Takeaway
특정 CPU 명령어 집합(SDOT)의 광범위한 기존 지원을 기반으로 적절한 양자화(Int4) 및 프레임워크 통합(KleidiAI + ExecuTorch)을 통해 수십억 개의 구형 디바이스를 새로운 AI 사용 사례의 대상으로 포함할 수 있다는 설계 원칙을 보여준다.
실천 포인트
Arm 기반 모바일/임베디드 환경에서 LLM을 배포할 때 SDOT 명령어를 활용하는 Int4 양자화 모델과 KleidiAI 최적화된 ExecuTorch를 조합하면, 최신 디바이스뿐 아니라 3~5년 전 구형 스마트폰과 Raspberry Pi 같은 저사양 하드웨어에서도 40 tokens/sec 이상의 decode 성능으로 실시간 음성 어시스턴트 또는 문맥 기반 텍스트 완성 같은 실용적인 온디바이스 AI 기능을 구현할 수 있다.