피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
OpenAI의 WebRTC 문제
음성 AI 지연 시간 700ms 달성을 위한 WebRTC 한계 분석 및 QUIC 기반 대안 탐색
AI 요약
Context
실시간 음성 AI 서비스에서 사용자 경험을 결정짓는 핵심 요소인 End-to-End 지연 시간 단축이 필수적인 상황. 기존 WebRTC 기반 아키텍처는 낮은 지연 시간 제공에는 유리하나, 고정된 품질 조절 메커니즘과 복잡한 핸드셰이크 과정으로 인해 LLM 파이프라인의 특수한 요구사항을 충족하는 데 한계 노출.
Technical Solution
- UDP 기반 전송을 통한 네트워크 패킷 손실 감수 및 전송 지연 최소화 설계
- RTP over QUIC 도입 검토를 통한 전송 계층의 유연성 확보 및 애플리케이션 레벨의 재전송 제어 구현
- Speculative LLM Pass 및 Speculative Tool Execution 적용으로 추론 단계의 지연 시간 100~200ms 추가 단축
- WebTransport 및 WebCodecs 활용을 통해 스트림 드롭 시점을 애플리케이션이 직접 결정하는 구조로 전환
- 지속 연결(Persistent Connection) 모델 채택으로 STT 처리 시작 시점을 앞당기는 파이프라인 최적화
- AEC(Acoustic Echo Cancellation) 기능 유지를 위해 WebRTC의 검증된 오디오 처리 로직을 부분적으로 활용
실천 포인트
1. 음성 AI 서비스 설계 시 단순 전송 지연 외에 LLM 추론-TTS 생성-전송으로 이어지는 전체 지연 예산(Latency Budget) 설정
2. WebRTC의 블랙박스적 특성으로 인한 제어 한계 발생 시 WebTransport 및 QUIC 도입 검토
3. 실시간 응답성을 위해 멱등성이 보장된 도구 호출의 경우 Speculative 실행 구조 적용
4. 네트워크 환경에 따른 품질-지연 시간 간의 절충점을 결정할 수 있는 Application-level 조절 장치 마련