피드로 돌아가기
Realtime transcription: choices and stories for PyCon IT
Dev.toDev.to
Infrastructure

Hallucination 원천 차단을 위한 Acoustic Decoding 기반 실시간 전사 시스템 설계

Realtime transcription: choices and stories for PyCon IT

Alessandra Bilardi2026년 4월 20일15intermediate

Context

Local Whisper GPU 환경에서 발생한 Generative Model 특유의 Hallucination 문제로 인해 무결성 보장이 불가능한 상황 발생. 단순 파라미터 튜닝이나 모델 크기 확대보다 아키텍처 차원의 근본적 해결책이 필요했던 시점.

Technical Solution

  • Generative 방식에서 Acoustic Decoding 방식인 Amazon Transcribe Streaming으로 전환하여 구조적 Hallucination 가능성 제거
  • 기존 Monolithic 구조를 Audio Client, Server, Display Client의 3계층 Decoupled Architecture로 분리하여 컴포넌트별 독립적 테스트 및 배포 환경 구축
  • asyncio.Queue와 asyncio.gather() 기반의 Async Pattern을 도입하여 오디오 스트림 처리의 비동기 효율성 확보
  • FastRTC v0.0.26과 같은 취약한 Dependency 의존성을 제거하기 위해 Fork 대신 New Repo 기반의 Targeted Rewrite 수행
  • 확장성 확보를 위해 ECS Fargate 도입 및 WebSocket Sticky Session과 ALB Idle Timeout 최적화를 통한 세션 안정성 설계

1. 생성형 AI 도입 시 Hallucination 허용 범위를 정의하고, 불가능할 경우 결정론적(Deterministic) 모델 검토

2. PoC에서 MVP 전환 시 취약한 외부 라이브러리에 의존한 Fork보다 핵심 로직만 추출한 재작성 고려

3. WebSocket 기반 분산 시스템 설계 시 ALB의 Sticky Session 설정과 SIGTERM 기반 Graceful Shutdown 처리 확인

원문 읽기