llama.cpp 기반 Gemma 4 로컬 런타임의 iPhone 통합 및 General Watcher 아키텍처 설계

OIC: From a Working Toast Watcher to a General "Watch It for Me" Agent

Straightly2026년 5월 25일7분advanced

AI 요약

Context

특정 객체만 탐지하는 Narrow Watcher 구조의 한계로 인해 새로운 시나리오마다 별도의 감지 모델을 구축해야 하는 비효율 발생. 이에 따라 자연어 Instruction을 통해 다양한 시나리오에 대응 가능한 General Visual Watcher로의 전환 필요성 대두.

Technical Solution

llama.cpp iOS XCFramework 통합을 통한 On-device GGUF 런타임 환경 구축
Toast-specific 구조에서 Watcher Specification과 Label을 분리한 범용 Watcher 아키텍처로 리팩토링
AVFoundation 기반 실시간 프레임 캡처와 LLM 추론 루프를 연결하는 파이프라인 설계
앱 번들 크기 최적화를 위해 GGUF 모델 파일을 앱 설치와 분리하여 별도로 관리하는 저장소 전략 채택
추론 단계별 병목 지점 파악을 위해 카메라 오픈부터 모델 추론까지의 전 과정을 추적하는 세밀한 Trace 시스템 도입

실천 포인트

1. 온디바이스 AI 도입 시 모델 파일의 앱 패키징 포함 여부와 동적 다운로드 전략 검토

2. 추론 루프 내에서 '프레임 캡처-모델 전달-결과 반환'의 각 접점에 상세 로그를 배치하여 추론 실패 지점 식별

3. 특정 도메인 전용 모델에서 일반 목적 모델로 전환 시, 공통 인터페이스(Specification)를 통한 아키텍처 추상화 적용

태그

#Gemma 4 #Multimodal LLM #llama.cpp #iOS Architecture #On-Device AI

원문 읽기