피드로 돌아가기
Dev.toAI/ML
원문 읽기
Local LLM 기반 브라우저 확장 프로그램으로 지연시간 120ms 달성
Local AI Agent Browser Extension: Hermes in 120ms
AI 요약
Context
퍼블릭 LLM API 사용 시 발생하는 데이터 유출 리스크와 컴플라이언스 문제 분석. 클라우드 라운드트립으로 인한 수 초 단위의 Latency가 실시간 웹 분석 UX를 저해하는 병목 지점으로 작용.
Technical Solution
- Browser Extension을 Client로 활용하여 현재 탭의 Web Context를 실시간 Scraping하는 구조 설계
- Localhost에서 동작하는 Node.js HTTP Server를 중간 Gateway로 배치하여 외부망 차단 및 보안성 강화
- Ollama, Llama.cpp 등 Local LLM Runtime을 통해 추론 단계의 네트워크 홉을 제거한 Zero-hop 아키텍처 구현
- Manifest v3의 activeTab 및 scripting 권한을 활용한 최소 권한 기반의 컨텐츠 추출 로직 적용
- Model 파라미터 최적화를 위해 Hermes 2.5 및 Phi-3 mini와 같은 경량 모델을 선택하여 추론 속도 극대화
Impact
- API 라운드트립 제거를 통해 Latency를 수 초 단위에서 120ms 수준으로 단축
- Local LLM 활용에 따른 Token 기반 비용 발생 제로화 달성
Key Takeaway
데이터 주권 확보와 초저지연 응답이 필수적인 내부 자동화 도구 설계 시, Local Runtime과 Local Gateway를 결합한 Edge-AI 아키텍처가 최적의 대안임.
실천 포인트
- 민감 데이터 처리 시 Cloud API 대신 Local LLM Runtime(Ollama 등) 검토 - 브라우저 확장 프로그램 설계 시 host_permissions 범위를 제한하고 activeTab 권한 활용 권장 - 실시간성 요구사항에 따라 Hermes
2.5 또는 Phi-3 mini와 같은 경량 모델의 Latency 벤치마크 수행