WebSocket-Rasa 기반 Voice AI 도입으로 견적 처리 시간 95% 단축

Voice AI for Jobsite Estimating: A Developer Perspective

Olivier EBRAHIM2026년 5월 3일7분intermediate

AI 요약

Context

건설 현장의 열악한 환경으로 인한 텍스트 입력 불가 및 수기 기록의 데이터 중복 입력 문제 발생. 기존의 수동 전산 입력 방식은 데이터 누락과 오기입으로 인한 높은 오류율을 유발하는 구조적 한계 존재.

지연 시간 최소화를 위해 16kHz 16-bit Raw PCM 오디오를 WebSocket으로 실시간 스트리밍하는 구조 설계
전처리 비용 및 레이턴시 제거를 위한 온디바이스 트랜스코딩 배제 전략 채택
도메인 특화 용어 처리를 위해 Cloud STT의 Context Hints 설정 및 Rasa 기반의 경량 NLU 모델을 통한 Entity Extraction 구현
추출된 Entity를 자재 데이터베이스와 Join하여 200ms 이내에 견적 라인 아이템으로 변환하는 파이프라인 구축
신뢰도 점수(Confidence Score) 기반의 3단계 Quality Gate를 적용하여 데이터 무결성 확보 및 휴먼 리뷰 프로세스 강제
1초 이상의 무음 구간을 감지하여 문장 종료를 판별하는 Silence Threshold 기반의 UX 최적화

실천 포인트

1. 실시간 오디오 처리 시 트랜스코딩 오버헤드와 네트워크 레이턴시 중 우선순위 분석

2. 도메인 특화 사전(Custom Vocabulary)을 STT API에 적용하여 오인식률 감소 확인

3. 신뢰도 임계값(Confidence Threshold)을 설정하여 자동 승인과 수동 검토 구간 분리

4. 불안정한 네트워크 환경을 대비한 Manual Text Input Fallback 전략 수립

태그