오프라인 환경의 0% Hallucination 달성을 위한 하이브리드 LLM 파이프라인 설계

Building Sakhi: Hindi Voice-to-Form for India's ASHA Workers, Solo in Six Weeks

Tushar Jaju2026년 5월 19일7분advanced

AI 요약

Context

인도 ASHA 보건 요원의 가내 방문 기록을 디지털화하기 위해 Hindi 음성-폼 변환 시스템 구축. 저사양 디바이스의 제한된 컴퓨팅 파워와 불안정한 네트워크 환경, 그리고 기존 Cloud STT의 높은 WER(27~70%+)로 인한 데이터 손실이 주요 병목 지점으로 작용함.

Technical Solution

워크스테이션(GPU)과 온디바이스(Android)로 분리한 Dual-Path 배포 모델 설계
온디바이스 Whisper INT4의 낮은 정확도와 Deletion-dominant 특성을 고려하여 음성 인식 기능을 워크스테이션으로 전면 배치한 리스크 관리 전략 채택
LLM의 환각 방지를 위해 'Model extracts, Python decides' 구조를 도입하여 Gemma 4가 추출한 증거를 Python 코드의 6단계 검증 로직으로 최종 필터링
인명, 연령 등 환각 빈도가 높은 Demographic 정보는 LLM 처리에서 완전히 배제하고 Typed Header 방식으로 입력받는 구조적 분리 구현
Cactus SDK와 Gemma 4 E2B INT4를 활용해 네트워크 단절 상태에서도 Hindi 텍스트-폼 변환이 가능한 완전 오프라인 파이프라인 구축

실천 포인트

- LLM 추출 결과의 신뢰성이 중요할 경우, 추출물과 원문 간의 Verbatim Grounding 검증 단계 추가 - 도메인 특화 데이터의 WER 수치를 정밀 분석하여, 기술적 한계가 명확한 기능은 억지로 온디바이스화 하기보다 하이브리드 아키텍처로 우회 - 환각 가능성이 높은 정형 데이터(이름, 날짜 등)는 LLM에 맡기지 말고 별도의 입력 인터페이스로 분리

태그

#Gemma 4 #Function Calling #Whisper #Hallucination Mitigation #On-Device AI

원문 읽기