피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Gemma Gem - 브라우저에서 Google Gemma 4 모델을 완전 온디바이스로 실행하는 Chrome 확장
WebGPU 기반 Gemma 4 온디바이스 실행을 통한 제로 서버 추론 아키텍처 구현
AI 요약
Context
기존 LLM 서비스의 API 의존성으로 인한 데이터 유출 위험과 네트워크 지연 시간 발생. 클라이언트 사이드에서 완전한 데이터 프라이버시를 보장하며 브라우저 리소스로 추론을 처리하는 로컬 실행 환경 필요.
Technical Solution
- WebGPU 기반 @huggingface/transformers 라이브러리를 활용한 모델 호스팅 및 로컬 추론 가속화
- Offscreen Document를 통한 모델 상주 및 에이전트 루프 실행으로 메인 스레드 블로킹 방지
- Service Worker와 Content Script의 계층 분리를 통한 메시지 라우팅 및 DOM 조작 권한 제어
- q4f16 양자화 모델 적용으로 메모리 점유율 최적화 및 128K Context Window 확보
- ModelBackend와 ToolExecutor 인터페이스 추상화를 통한 에이전트 로직의 의존성 제거 및 모듈화
- CSS Selector 기반의 DOM 접근 도구 세트를 구축하여 브라우저 컨텍스트 내 직접적인 Action 수행 구조 설계
실천 포인트
1. WebGPU 지원 브라우저 환경 확인
2. 모델 크기 최적화를 위한 q4f16 등 양자화 전략 검토
3. 무거운 추론 작업 처리를 위한 Offscreen Document 기반 비동기 구조 설계
4. 인터페이스 기반 추상화를 통한 모델 및 도구 교체 가능성 확보