피드로 돌아가기
Show GN: LiteRT-LM-Unity - LiteRT-LM용 유니티 안드로이드 래퍼
GeekNewsGeekNews
AI/ML

Show GN: LiteRT-LM-Unity - LiteRT-LM용 유니티 안드로이드 래퍼

LiteRT-LM 기반 Unity Android Wrapper 구축을 통한 On-device LLM 추론 가속화

wedding2026년 5월 12일1intermediate

Context

whisper.cpp 기반 Android 온디바이스 LLM 운용 중 GPU 가속 부재로 인한 추론 속도 저하 발생. 하드웨어 자원 활용 최적화 및 실시간성 확보를 위한 새로운 런타임 도입 필요성 대두.

Technical Solution

  • GPU 가속 지원을 위해 기존 whisper.cpp 구조에서 LiteRT-LM 기반 아키텍처로 전환
  • Unity 환경의 Android 플랫폼 최적화를 위한 전용 Wrapper 레이어 설계
  • 추론 속도 극대화를 위해 MTP(Multi-Token Prediction) 기술을 적용한 모델 포팅
  • LiteRT Community 벤치마크 데이터 기반의 최적 모델 선정 및 통합

1. On-device LLM 도입 시 단순 CPU 연산 기반 라이브러리보다 GPU 가속 지원 런타임 우선 검토

2. 추론 지연 시간 단축을 위해 MTP 적용 모델의 성능 이점 확인

3. Unity-Android 연동 시 네이티브 런타임을 효율적으로 호출하는 Wrapper 구조 설계

원문 읽기