피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 지원
iPhone GPU 기반 Gemma 4 추론 실현 및 Prefill 231t/s 달성
AI 요약
Context
Apple Neural Engine(ANE)의 LLM 추론 효율성 저하 및 표준화된 CPU/GPU 생태계와의 괴리 발생. ANE의 최소 128 벡터 단위 처리 제약으로 인한 토큰 생성 단계의 병목 지점 존재.
Technical Solution
- ANE 커스텀 커널 컴파일 포기를 통한 GPU 백엔드 기반의 추론 경로 채택
- Metal 프레임워크 활용으로 이식성 확보 및 개발 기간 단축
- 메모리 제약 조건에 따른 4B 모델 대신 2B 모델 우선 적용으로 구동 안정성 확보
- TypeScript 단일 파일 생성 및 oxc 컴파일러를 통한 실행 바이너리 최적화
- O(tokens²) 복잡도 특성에 따른 입력 길이 증가 시의 성능 저하 구간 식별
실천 포인트
1. 온디바이스 LLM 설계 시 모델 파라미터 크기보다 가용 RAM 제약 사항을 우선 검토
2. 하드웨어 특화 가속기 사용 전 벡터 처리 단위와 토큰 생성 방식의 정합성 확인
3. 입력 시퀀스 길이에 따른 연산 복잡도 증가를 고려한 타임아웃 및 스로틀링 설계