피드로 돌아가기
Building a Self-Hosted AI WhatsApp Agent for Structured Invoice Extraction
Dev.toDev.to
AI/ML

Gemini 1.5 Flash와 n8n 기반의 실시간 송장 데이터 추출 자동화 파이프라인 구축

Building a Self-Hosted AI WhatsApp Agent for Structured Invoice Extraction

Rohan2026년 5월 21일5intermediate

Context

전통적인 OCR 소프트웨어의 템플릿 의존성으로 인한 낮은 유연성과 수동 데이터 입력으로 발생하는 비즈니스 마찰 해결 필요. 외부 서버 없이 운영 가능한 Self-hosted 환경의 고효율 데이터 추출 구조 설계 요구.

Technical Solution

  • WhatsApp Business API Webhook을 통한 실시간 Multimodal 입력 수신 구조 채택
  • Gemini 1.5 Flash의 Native Multimodal 능력을 활용한 템플릿 없는 비정형 이미지 데이터의 직접 분석
  • Strict System Prompt 설계를 통한 정교한 JSON 데이터 파싱 및 데이터 정규화 강제
  • n8n 내장 Code Node(JavaScript)를 활용한 데이터 유효성 검증 및 데이터베이스 매핑 로직의 격리
  • Redis Queue 도입을 통한 동시성 제어 및 Rate Limiting 처리로 시스템 안정성 확보
  • PII 보호를 위한 처리 완료 즉시 임시 저장 데이터 삭제 프로세스 적용

- OCR 대신 Multimodal LLM을 활용하여 다양한 벤더 양식에 대응하는 유연한 파서 설계 - LLM 출력의 불안정성을 제거하기 위해 JSON 포맷 강제 프롬프트와 JS 기반의 Safety Validation 단계 결합 - 서버리스/로우코드 오케스트레이션 도구와 전문 LLM의 조합을 통한 POC 개발 속도 극대화 - 운영 환경 배포 시 Redis 기반 큐잉 시스템을 통한 API 호출 부하 분산 검토

원문 읽기