피드로 돌아가기
Dev.toAI/ML
원문 읽기
ExecuTorch 기반 On-Device LLM 구현으로 API 호출 제로 및 완전 오프라인 환경 구축
Six Lines, Zero API Calls: Running LLMs On-Device in React Native
AI 요약
Context
기존 AI 기능의 Cloud 기반 아키텍처로 인한 네트워크 의존성 및 Token 비용 증가 문제 발생. 특히 개인정보 보호가 필수적인 저널링 앱이나 오프라인 환경에서의 기능 작동 불능이라는 구조적 한계 직면.
Technical Solution
- Meta의 ExecuTorch 런타임을 React Native에 브릿징하여 모바일 기기 내 직접 추론 구조 설계
- New Architecture 및 Expo SDK 54+ 기반의 Native Module 최적화를 통한 하드웨어 가속 활용
- ResourceFetcherAdapter를 통한 플랫폼별 모델 리소스 로드 전략 분리 및 초기화 단계 강제
- preventLoad 플래그를 활용한 Lazy-loading 구현으로 불필요한 RAM 점유 및 초기 설치 용량 최적화
- Local Vector Store와 Embedding 모델을 결합한 On-Device RAG 아키텍처로 데이터 프라이버시 확보
- On-Device OCR 및 Whisper STT-TTS 체이닝을 통한 완전 폐쇄형 AI 파이프라인 구축
실천 포인트
- React Native New Architecture 및 Expo SDK 54 이상 버전 적용 여부 확인 - Metro 설정의 assetExts에 .pte 확장자를 추가하여 모델 바이너리 번들링 처리 - 앱 진입점(Entry Point)에서 initExecutorch를 통한 어댑터 초기화 선행 여부 검토 - 메모리 효율을 위해 기능 진입 시점에만 모델을 로드하는 Lazy-loading 전략 적용 - 시뮬레이터가 아닌 실제 iOS 하드웨어에서 Release 빌드 테스트 수행