피드로 돌아가기
Building Sakhi: Hindi Voice-to-Form for India's ASHA Workers, Solo in Six Weeks
Dev.toDev.to
AI/ML

오프라인 환경의 0% Hallucination 달성을 위한 하이브리드 LLM 파이프라인 설계

Building Sakhi: Hindi Voice-to-Form for India's ASHA Workers, Solo in Six Weeks

Tushar Jaju2026년 5월 19일7advanced

Context

인도 ASHA 보건 요원의 가내 방문 기록을 디지털화하기 위해 Hindi 음성-폼 변환 시스템 구축. 저사양 디바이스의 제한된 컴퓨팅 파워와 불안정한 네트워크 환경, 그리고 기존 Cloud STT의 높은 WER(27~70%+)로 인한 데이터 손실이 주요 병목 지점으로 작용함.

Technical Solution

  • 워크스테이션(GPU)과 온디바이스(Android)로 분리한 Dual-Path 배포 모델 설계
  • 온디바이스 Whisper INT4의 낮은 정확도와 Deletion-dominant 특성을 고려하여 음성 인식 기능을 워크스테이션으로 전면 배치한 리스크 관리 전략 채택
  • LLM의 환각 방지를 위해 'Model extracts, Python decides' 구조를 도입하여 Gemma 4가 추출한 증거를 Python 코드의 6단계 검증 로직으로 최종 필터링
  • 인명, 연령 등 환각 빈도가 높은 Demographic 정보는 LLM 처리에서 완전히 배제하고 Typed Header 방식으로 입력받는 구조적 분리 구현
  • Cactus SDK와 Gemma 4 E2B INT4를 활용해 네트워크 단절 상태에서도 Hindi 텍스트-폼 변환이 가능한 완전 오프라인 파이프라인 구축

- LLM 추출 결과의 신뢰성이 중요할 경우, 추출물과 원문 간의 Verbatim Grounding 검증 단계 추가 - 도메인 특화 데이터의 WER 수치를 정밀 분석하여, 기술적 한계가 명확한 기능은 억지로 온디바이스화 하기보다 하이브리드 아키텍처로 우회 - 환각 가능성이 높은 정형 데이터(이름, 날짜 등)는 LLM에 맡기지 말고 별도의 입력 인터페이스로 분리

원문 읽기
Building Sakhi: Hindi Voice-to-Form for India's ASHA Workers, Solo in Six Weeks | Devpick