피드로 돌아가기
The RegisterAI/ML
원문 읽기
Gemini Nano 도입을 통한 Chrome 브라우저 내 4GB Local LLM 온디바이스 배포
Chrome silently installs a 4 GB local LLM on your computer
AI 요약
Context
클라우드 기반 LLM의 지연 시간과 개인정보 보호 문제를 해결하기 위해 브라우저 엔진 레벨의 온디바이스 추론 환경 구축 필요성 증대. 기존의 API 호출 방식에서 벗어나 로컬 리소스를 활용한 즉각적인 Prompt API 응답 체계 구현을 목표로 함.
Technical Solution
- Gemini Nano 모델의 weights.bin 파일을 OptGuideOnDeviceModel 폴더에 로컬 저장하여 네트워크 의존성 제거
- 브라우저 내부의 Prompt API와 로컬 모델을 직접 연결하여 추론 처리 속도 최적화
- 최적화 가이드(optimization-guide-on-device-model) 플래그를 통한 모델 활성화 및 제어 메커니즘 구현
- 모델 파일 삭제 시 자동 재다운로드 로직을 통한 온디바이스 모델의 가용성 유지
- Windows Registry 및 Enterprise Policy를 통한 기업 수준의 모델 배포 및 비활성화 제어 인터페이스 제공
실천 포인트
1. 온디바이스 모델 배포 시 사용자 디스크 할당량 및 리소스 점유에 대한 투명한 정책 수립 여부 검토
2. Local LLM 도입 시 모델 업데이트 및 동기화를 위한 자동 재다운로드 메커니즘의 효율성 분석
3. Enterprise 환경을 고려한 중앙 집중식 모델 제어 정책(Policy) 설계 반영