Google Chrome이 동의 없이 기기에 4GB AI 모델을 조용히 설치함

사용자 동의 없는 4GB Gemini Nano 온디바이스 배포 체계 분석

neo2026년 5월 6일29분intermediate

AI 요약

Context

클라우드 기반 AI 서비스의 지연 시간과 비용 문제를 해결하기 위해 브라우저 내 로컬 추론 환경 구축 필요성 대두. 기존의 서버 쿼리 방식인 Search Generative Experience 구조에서 벗어나 온디바이스 LLM을 통한 기능 구현을 목표로 함.

Performance Class 기반 적격성 판단: GPU VRAM 및 통합 메모리 총량을 사전 측정하여 모델 푸시 대상 기기를 자동으로 분류하는 필터링 로직 설계
Background Download 체계: OnDeviceModelBackgroundDownload 플래그를 통한 사용자 인터렉션 없는 비동기 모델 다운로드 및 언패킹 프로세스 구축
Atomic Deployment 구조: 임시 디렉터리에서 언패킹 후 OptGuideOnDeviceModel 경로로 최종 이동시켜 파일 무결성을 보장하는 배치 처리 방식 채택
Hybrid AI Routing: 'AI Mode'는 클라우드 SGE로 연결하고, 'Help me write' 등 특정 기능은 로컬 Gemini Nano 가중치를 사용하는 하이브리드 런타임 구성
Persistence Management: Local State JSON 및 variations 서버를 통해 모델 설치 상태를 추적하고 삭제 시 자동 재다운로드를 트리거하는 상태 관리 루프 구현

실천 포인트

1. 온디바이스 모델 도입 시 VRAM/RAM 기준의 최소 하드웨어 요구사항 정의 및 검증 로직 구현 여부 확인

2. 대용량 바이너리 배포 시 네트워크 대역폭 및 디스크 I/O 부하를 최소화하는 배치 윈도우 설정 검토

3. 모델 업데이트 및 재설치 루프 설계 시 사용자의 Opt-out 권한 보장 및 상태 동기화 메커니즘 검토

4. 로컬 추론 모델의 크기 대비 실제 유틸리티 가치(Utility-to-Size Ratio) 분석을 통한 모델 최적화 수행

태그