피드로 돌아가기
OpenAI's New Realtime Voice Models Can Think, Translate, and Transcribe — Here's What Developers Need to Know
Dev.toDev.to
AI/ML

End-to-End Audio 처리 및 Preamble 도입으로 Voice Agent 지연 시간 해결

OpenAI's New Realtime Voice Models Can Think, Translate, and Transcribe — Here's What Developers Need to Know

Evan-dong2026년 5월 8일2intermediate

Context

기존 Voice Agent 아키텍처의 Cascaded 구조로 인한 텍스트 변환 단계의 음성 특성 손실 발생. Tool Call 실행 시 발생하는 2~3초의 Dead Air로 인한 사용자 경험 저하 및 시스템 단절감 존재.

Technical Solution

  • Text 단계를 생략한 End-to-End Audio Processing 설계를 통한 화자의 톤과 감정 보존
  • Tool Call 실행과 음성 출력을 병렬 처리하는 Preamble 메커니즘 도입으로 무음 구간 제거
  • WebRTC, WebSocket, SIP 등 다각적 Connection Method 제공을 통한 클라이언트 환경별 Latency 최적화
  • 128K Context Window 확장으로 긴 대화 맥락 유지 및 Interruption 처리 능력 강화
  • 70개 이상의 입력 언어를 실시간으로 처리하는 실시간 번역 엔진 통합

1. Voice Agent 설계 시 Tool Call 실행 중 사용자 이탈을 막기 위한 Preamble 전략 검토

2. 저지연 요구사항에 따라 WebRTC(브라우저) 또는 WebSocket(서버) 연결 방식 선택

3. 다국어 서비스 구축 시 Text-to-Speech 단계 없이 Audio-to-Audio 모델 채택으로 감정 전달력 확보

원문 읽기