피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 E4B 기반 On-device LLM을 통한 프라이버시 우선 문서 분석 시스템 구축
Legible - I built an on-device document helper for immigrants using Gemma 4
AI 요약
Context
민감한 개인정보가 포함된 관공서 문서를 처리함에 있어 Cloud API 전송 시 발생하는 데이터 유출 리스크 존재. 기존 OCR 파이프라인의 비효율성과 비라틴 문자 인식 오류로 인한 낮은 정확도의 한계 직면.
Technical Solution
- Ollama를 통한 Gemma 4 E4B 모델의 Local Serving으로 데이터 외부 유출을 원천 차단한 Privacy Architecture 설계
- 별도의 OCR 단계 없이 Gemma 4의 Native Multimodal 기능을 활용하여 저화질 및 각도 왜곡 이미지의 텍스트 직접 추출
- 고정된 XML Schema 정의 및 Few-shot 프롬프팅을 통한 Vision Model의 Structured Output 신뢰성 확보
- 날짜 계산 로직을 코드 레벨이 아닌 LLM 내부 추론으로 처리하여 파싱 오류를 제거한 Reliability 개선
- Fernet 대칭키 암호화를 적용한 로컬 파일 시스템 기반의 문서 처리 이력 관리 구조 구현
- FastAPI 프록시 서버와 단일 HTML 프론트엔드를 결합한 Minimalist Stack으로 배포 복잡도 최소화
실천 포인트
1. 민감 정보 처리 시 API 기반 LLM 대신 Local SLM 도입 가능성 검토
2. 정형 데이터 추출 시 JSON보다 엄격한 XML Schema를 프롬프트에 정의하여 파싱 안정성 확보
3. 복잡한 날짜 연산 등 정적 로직보다 LLM의 내부 추론 능력을 활용한 End-to-End 처리 효율성 검증
4. Multimodal 모델 도입 시 OCR 전처리 단계 제거를 통한 파이프라인 단순화 및 정확도 개선 확인