피드로 돌아가기
Dev.toAI/ML
원문 읽기
llama.cpp 기반 Gemma 4 로컬 런타임의 iPhone 통합 및 General Watcher 아키텍처 설계
OIC: From a Working Toast Watcher to a General "Watch It for Me" Agent
AI 요약
Context
특정 객체만 탐지하는 Narrow Watcher 구조의 한계로 인해 새로운 시나리오마다 별도의 감지 모델을 구축해야 하는 비효율 발생. 이에 따라 자연어 Instruction을 통해 다양한 시나리오에 대응 가능한 General Visual Watcher로의 전환 필요성 대두.
Technical Solution
- llama.cpp iOS XCFramework 통합을 통한 On-device GGUF 런타임 환경 구축
- Toast-specific 구조에서 Watcher Specification과 Label을 분리한 범용 Watcher 아키텍처로 리팩토링
- AVFoundation 기반 실시간 프레임 캡처와 LLM 추론 루프를 연결하는 파이프라인 설계
- 앱 번들 크기 최적화를 위해 GGUF 모델 파일을 앱 설치와 분리하여 별도로 관리하는 저장소 전략 채택
- 추론 단계별 병목 지점 파악을 위해 카메라 오픈부터 모델 추론까지의 전 과정을 추적하는 세밀한 Trace 시스템 도입
실천 포인트
1. 온디바이스 AI 도입 시 모델 파일의 앱 패키징 포함 여부와 동적 다운로드 전략 검토
2. 추론 루프 내에서 '프레임 캡처-모델 전달-결과 반환'의 각 접점에 상세 로그를 배치하여 추론 실패 지점 식별
3. 특정 도메인 전용 모델에서 일반 목적 모델로 전환 시, 공통 인터페이스(Specification)를 통한 아키텍처 추상화 적용