메신저용 온디바이스 이미지 모델 학습기 1편: 지식 증류로 확장한 다국어 이미지 검색

카카오톡이 지식 증류 기법으로 영어 전용 텍스트 인코더를 다국어(5개 언어)로 확장해 Recall@5 78% 달성하며 온디바이스 이미지 검색 구현

2026년 3월 6일12분intermediate

AI 요약

Context

메신저 환경에서 이미지는 '사진' 하나의 타입으로만 취급되어 알림·검색·추천 기능이 제한적이었다. 텍스트 메시지는 서버 처리가 일반적이지만 개인 사진 전송, 낮은 지연 요구(수백ms 이내), 오프라인 환경 지원, 제한된 모바일 메모리라는 제약으로 온디바이스 구현이 사실상 필수 조건이었다.

Technical Solution

이미지-텍스트 임베딩 모델의 텍스트 인코더를 지식 증류(knowledge distillation) 기법으로 확장: Teacher 모델의 정교한 표현력을 Student 모델에 전수하여 다국어 지원(영어/일본어/중국어 번체/태국어/한국어) 가능하게 함
이미지와 텍스트를 동일한 임베딩 공간(embedding space)에 사상: 코사인 유사도(cosine similarity)로 의미 기반 검색 수행하여 "강아지/멍멍이/개" 같은 다른 표현이 동일 결과를 가리키도록 함
모델 크기 제약을 200MB 이하로 설정: 앱 다운로드 부담 최소화하며 Android/iOS 모두 지원하는 LiteRT 기준으로 설계
콜드 스타트 포함 수백ms 이내 응답 속도 목표: 모바일 UX 지연에 민감한 메신저 환경에서 알림·검색 시나리오 충족
평가 지표를 다층화: Recall@5(Image-to-Text/Text-to-Image)로 검색 정확도 측정하고, LLM 기반 수락 비율로 반복/오타/문법 오류 등 실서비스 사용 여부 판정

Impact

다국어 지원 이미지 검색 기능 구현 시 Recall@5 평균 78% 달성

Key Takeaway

온디바이스 AI 모델 배포 시 지식 증류는 Teacher 모델의 정확도를 유지하면서 Student 모델의 크기와 지연을 동시에 감소시킬 수 있으며, 다국어 확장 같은 새로운 능력 추가에도 효과적이다. 특히 모바일 환경에서는 프라이버시, 네트워크 불안정성, 메모리 제약이라는 제약 조건을 함께 고려할 때 지식 증류 기반 설계가 필수적이다.

실천 포인트

온디바이스 이미지 검색을 구현하는 모바일 팀에서는 사전학습된 Teacher 모델의 임베딩 표현을 지식 증류로 작은 Student 모델에 전달하면, 모델 크기를 크게 줄이면서도 의미 기반 검색 성능(Recall@5 78%)을 유지할 수 있다. 추가로 LLM 기반 수락 비율 지표를 도입하면 반복 단어·오타·문법 오류 같은 실제 서비스 품질 문제를 정량적으로 포착할 수 있다.

태그

#Knowledge Distillation #Mobile ML #Multilingual NLP #Image Embeddings #On-Device AI

원문 읽기