Show GN: LiteRT-LM-Unity - LiteRT-LM용 유니티 안드로이드 래퍼

LiteRT-LM 기반 Unity Android Wrapper 구축을 통한 On-device LLM 추론 가속화

wedding2026년 5월 12일1분intermediate

AI 요약

Context

whisper.cpp 기반 Android 온디바이스 LLM 운용 중 GPU 가속 부재로 인한 추론 속도 저하 발생. 하드웨어 자원 활용 최적화 및 실시간성 확보를 위한 새로운 런타임 도입 필요성 대두.

실천 포인트

1. On-device LLM 도입 시 단순 CPU 연산 기반 라이브러리보다 GPU 가속 지원 런타임 우선 검토

2. 추론 지연 시간 단축을 위해 MTP 적용 모델의 성능 이점 확인

3. Unity-Android 연동 시 네이티브 런타임을 효율적으로 호출하는 Wrapper 구조 설계

태그