피드로 돌아가기
Dev.toAI/ML
원문 읽기
Cloudflare Workers AI 기반 Gemma 4 MoE 도입을 통한 Privacy-First 가계부 설계
I let Gemma 4 analyze my credit card statements so I wouldn't have to
AI 요약
Context
다수 은행의 CSV 데이터를 통합 분석하기 위해 초기에는 Claude API를 사용했으나, 민감한 금융 데이터 전송에 따른 Privacy 이슈 및 외부 의존성 존재.
Technical Solution
- Cloudflare Workers AI 플랫폼으로 추론 환경을 이전하여 데이터 노출 위험을 최소화한 Local-first 아키텍처 구현
- 추론 지연 시간(Latency)과 분석 품질의 균형을 위해 Dense 모델 대신 26B MoE(Mixture of Experts) 변체 채택
- 약 100행의 트랜잭션 데이터를 효율적으로 처리하기 위해 2B/4B 모델의 메모리 제약을 배제하고 26B 모델의 합성 능력 활용
- LLM의 출력 일관성 확보를 위해 System Prompt 강화 및 XML 태그 기반의 Output Shape 가이드라인 적용
- Next.js와 PostgreSQL 기반의 로컬 DB 구조를 통해 데이터 저장과 처리를 사용자 환경 내로 한정
실천 포인트
1. LLM 마이그레이션 시 모델 크기별 Latency와 Quality 트레이드오프를 분석하여 MoE 모델 검토
2. 정형 데이터 파싱 정확도를 높이기 위해 단순 프롬프팅 대신 XML 블록을 활용한 Few-shot 형태의 출력 구조 명시
3. 금융 데이터와 같은 민감 정보 처리 시 Edge AI 환경을 통한 Privacy-focused 설계 고려