llama.cpp 기반 iOS 온디바이스 Multimodal LLM JSON 추출 파이프라인 구현

Local Multimodal LLM on iOS with `llama.cpp` (Swift + ObjC++)

Timothy Fosteman2026년 5월 11일27분advanced

AI 요약

Context

클라우드 의존성 없는 로컬 이미지-텍스트 변환 파이프라인의 필요성 대두. 기존 Apple Foundation 모델의 이미지 추론 기능 부재 및 Swift 환경에서의 저수준 C++ 라이브러리 제어 제약으로 인한 구조적 한계 존재.

llama.cpp를 XCFramework 형태로 빌드하여 iOS 디바이스 및 시뮬레이터에 최적화된 정적 링크 구조 설계
Swift의 직접 접근을 차단하고 Objective-C++ Bridge를 통해 mtmd_init 및 mtmd_tokenize 등 저수준 C++ API를 캡슐화
Qwen3.5-4B-Q4_K_M 모델과 mmproj-F16 projector를 결합하여 Metal 및 ANE 가속 기반의 Multimodal 추론 환경 구축
Swift-facing API에 Codable 기반의 StructuredOutput 프로토콜을 적용하여 비정형 LLM 출력을 타입 안정성이 보장된 JSON 구조로 변환
UI 계층과 추론 상태를 완전히 분리하여 LLMFunctionsController를 통한 단일 진입점의 비동기 예측 인터페이스 구현

실천 포인트

1. llama.cpp 빌드 시 mtmd_ 심볼 포함 여부를 nm 명령어로 검증했는가

2. Swift-C++ 직접 연결 대신 Objective-C++ Bridge를 통해 메모리 및 라이프사이클을 관리하는가

3. 모델 양자화 수준(Q4_K_M 등)이 타겟 기기의 Unified Memory 용량 내에서 최적화되었는가

4. LLM 응답의 JSON malformed 에러 처리를 위한 Fallback 및 Exception 메커니즘을 구축했는가

태그