인지적 지연 시간 제어로 1.2초의 Latency 한계를 극복한 UX 전략

Your Voice Agent Is Slow. Here Are 5 Tricks to Hide It.

Ken Imoto2026년 6월 13일9분intermediate

AI 요약

Context

STT, LLM, TTS 및 Network 단계가 결합된 Voice AI 스택에서 물리적 Latency 200ms 달성이 사실상 불가능한 제약 상황 발생. 실제 응답 시간 1.2s로 인해 사용자가 연결 끊김으로 오인하거나 신뢰도를 상실하는 병목 지점 확인.

VAD(Voice Activity Detection) 종료 즉시 LLM 개입 없는 사전 생성 Acknowledgment Token 재생을 통한 즉각적 피드백 제공
LLM 추론 시간 동안 인지적 부하를 시뮬레이션하는 Human-recorded Filler를 삽입하여 침묵을 '사고 과정'으로 인지하도록 유도
답변 구조를 먼저 생성하여 송출하는 Progressive Disclosure 방식을 통해 사용자가 내용을 처리하는 동안 나머지 토큰을 생성하는 파이프라인 설계
Intent Class 기반의 Pre-canned Response 라이브러리를 활용하여 단순 Acknowledgment를 넘어선 맥락 기반의 대기 시간 확보
실제 성능 수치를 개선하는 대신 사용자의 지각 임계값(Latency Cliff)을 관리하는 Perception Design 전략 채택

실천 포인트

1. VAD 종료 후 400ms 이내에 중립적인 Acknowledgment 재생 여부 검토

2. LLM 추론 지연이 예상되는 High-latency 턴에 Human-recorded Filler 적용

3. Long-form 응답 시 구조적 프레임을 먼저 출력하는 Prompt/Planning 단계 설계

4. Intent별 Warmup Phrase 라이브러리 구축을 통한 맥락적 대기 시간 확보

태그