On-Device vs On-Server 모델 비교를 통한 모바일 AI 추론 최적화 전략

Implementation of AI in mobile applications: Comparative analysis of On-Device and On-Server approaches on Native Android and Flutter

Ratratatyu2026년 5월 22일12분intermediate

AI 요약

Context

모바일 환경에서 AI 모델 배포 시 디바이스 리소스 제약과 서버 통신 비용 간의 상충 관계 발생. 특히 이미지 데이터 전송 시 발생하는 Latency와 추론 정확도 사이의 최적 접점 탐색이 필요함.

Google ML Kit 기반 On-Device 추론 구조를 통한 Network Latency 제거 및 데이터 프라이버시 확보
Hugging Face Inference API를 통한 SOTA 모델(ViT) 배포로 디바이스 연산 부하 분산 및 추론 정확도 극대화
Main Thread 블로킹 방지를 위한 Kotlin Suspend Function 및 Dispatchers.IO 기반의 비동기 네트워크 처리 설계
네트워크 트래픽 최적화를 위해 이미지 전송 전 JPEG 포맷 기반의 Bitmap 압축 로직 구현
Memory Leak 방지 및 초기화 비용 최적화를 위한 Kotlin Delegate(by lazy) 기반의 Labeler 객체 관리
False Positive 억제를 위해 Confidence Threshold(0.4f)를 설정한 추론 필터링 적용

실천 포인트

1. 모델 정밀도 요구사항에 따른 On-Device(ML Kit) vs On-Server(SOTA API) 선택 여부 검토

2. 모바일 UI 프리징 방지를 위한 비동기 처리 및 IO 스레드 분리 적용

3. 서버 전송 이미지의 해상도 및 압축률 최적화를 통한 데이터 전송량 제어

4. On-Device 추론 시 Confidence Threshold 설정을 통한 오탐지율 제어

태그