메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략

Meta가 비자기회귀 디코더와 다단계 지식 증류로 모바일 메신저의 이미지 캡션 생성을 5초 이상에서 200~400ms로 단축

2026년 3월 6일7분advanced

AI 요약

Context

기존 자기회귀 방식의 거대 VLM(BLIP-2, MobileVLM, PaliGemma, MiniCPM) 또는 BLIP-1 모델은 모바일 기기에서 5초 이상의 지연을 발생시켜 메신저 사용 시나리오에 부적합했습니다. 양자화를 적용해도 200~400ms 목표 달성이 어려웠고, Gemini Nano의 Image Description 기능도 요구되는 사용 케이스와 맞지 않았습니다.

Technical Solution

디코딩 방식을 자기회귀에서 비자기회귀(non-autoregressive)로 전환하여 병렬 토큰 생성으로 지연 시간 단축
거대 모델(teacher)에서 작은 모델(student)로 표현력을 전수하는 다단계 지식 증류 적용
실사용 품질 평가를 위해 LLM 기반 수락 비율(accept ratio) 지표 도입
학습 데이터의 캡션을 재생성(re-captioning)하여 student 모델 학습 데이터 품질 향상
172MB 크기의 온디바이스 모델로 서비스 가능한 수준의 성능 구현

Impact

응답 시간: 5초 이상에서 200~400ms로 단축 (12배 향상)
온디바이스 모델 크기: 172MB로 제약된 모바일 환경에서 실제 배포 가능

Key Takeaway

모바일 메신저 같은 지연 민감 서비스에서 거대 모델의 정확도가 필수적이라면, 단순 경량화보다는 비자기회귀 디코딩과 다단계 지식 증류를 결합하고 실제 사용자 체감 품질(LLM 기반 수락 비율)을 평가 지표로 삼는 것이 효과적입니다.

실천 포인트

이미지 캡션, 번역, 음성인식 등 자기회귀 토큰 생성이 필요한 모바일 온디바이스 모델 개발 시, 비자기회귀 디코더로 먼저 지연 목표를 달성한 뒤 LLM 기반 품질 지표를 정의하고 다단계 지식 증류로 품질을 높이는 순서로 진행하면 수백 ms 수준의 응답 시간과 서비스 품질을 동시에 확보할 수 있습니다.

태그

#ImageCaptioning #KnowledgeDistillation #VLM #OnDevice #NonAutoregressive

원문 읽기