Dev.to모바일 앱에서 llama.cpp와 Kotlin Multiplatform을 활용해 7B 파라미터 LLM을 온디바이스로 실행하면서 Q4_K_M 양자화로 메모리 23% 절감 및 iOS 60fps 스트리밍 아키텍처 구현Embedding Local LLMs in Your Mobile AppMobileadvanced12 분 소요2026년 3월 26일