피드로 돌아가기
L.E.N.S. — A private photography coach for blind and low-vision artisans
Dev.toDev.to
AI/ML

Gemma 4 E4B 기반 Local Edge AI로 구현한 시각장애인용 온디바이스 사진 코칭 시스템

L.E.N.S. — A private photography coach for blind and low-vision artisans

PRASAD TILLOO2026년 5월 22일7intermediate

Context

시각장애 예술가가 타인의 도움 없이 제품 사진의 구도와 조명을 검증해야 하는 독립적 작업 환경 필요. 기존 Cloud AI 기반 솔루션은 데이터 프라이버시 침해 및 네트워크 의존성으로 인한 실시간 피드백 지연이라는 한계 존재.

Technical Solution

  • Local-first Privacy 구현을 위해 Ollama를 통한 Gemma 4 E4B 모델의 온디바이스 추론 구조 설계
  • 하드웨어 제약과 추론 성능의 Trade-off 분석을 통해 31B/26B MoE 모델 대신 최적의 균형점인 E4B 모델 채택
  • 추론 속도 최적화를 위해 Q4_K_M Quantization 적용 및 Prompt Tuning, Token Cap 설정을 통한 Latency 감소
  • UX 복잡도 해결을 위해 모델 출력값을 Strict Schema의 Structured JSON으로 제한하여 음성 인터페이스(TTS)에 최적화된 단일 피드백 루프 구축
  • Web Speech API와 React 19 PWA를 결합하여 스크린 리더와 호환되는 Voice-first 인터페이스 설계

Impact

  • 모델 최적화 및 Streaming 도입을 통해 초기 40s였던 Warm Inference Latency를 약 20s로 50% 단축

Key Takeaway

특정 도메인의 Accessibility 솔루션 설계 시, 단순한 기능 구현보다 '데이터 독립성'과 '인지 부하 감소(One fix at a time)'라는 제약 사항을 아키텍처의 핵심 결정 요인으로 설정해야 함.


- 온디바이스 LLM 도입 시 하드웨어 사양에 따른 모델 사이즈와 Quantization 레벨의 상관관계 검증 - LLM의 장황한 응답을 방지하기 위해 Structured JSON 스키마를 강제하여 클라이언트 단의 유효성 검증 단계 구축 - Voice-first 서비스 설계 시 TTS 출력의 호흡을 고려한 Token 제한 및 스트리밍 전략 검토

원문 읽기