Hugging Face가 Speech-to-Speech 파이프라인을 Inference Endpoints에 배포하기 위해 커스텀 Docker 이미지를 구축해 GPU 기반 음성 처리 서비스 운영

Deploying Speech-to-Speech on Hugging Face

2024년 10월 22일9분intermediate

AI 요약

Context

Speech-to-Speech는 음성 입력을 음성 출력으로 변환하는 복잡한 파이프라인으로, VAD, STT, 언어 모델, TTS 등 4개 컴포넌트를 순차적으로 실행해야 한다. 고사양 랩톱에서도 레이턴시 문제가 발생하며 GPU 없이는 실시간 처리가 어렵다. 개별 사용자가 자체 GPU 인프라를 구축하기는 현실적으로 불가능하다.

Technical Solution

Hugging Face 기본 Docker 이미지 레포지토리를 클론해 추론 작업에 최적화된 기반 이미지 사용
Speech-to-Speech 코드베이스와 필요한 데이터셋을 Docker 이미지 내 서브모듈로 포함해 매번 다운로드 불필요
Inference Endpoints의 커스텀 Docker 이미지 옵션을 활용해 복잡한 멀티스테이지 파이프라인 지원
클라이언트 측에서 오디오 입력 콜백, 서버 전송, 응답 수신, 오디오 재생을 4개 독립 태스크로 분리
서버 응답 완료 감지 시 클라이언트 수신 대기 상태로 전환하는 WebSocket 메시지 핸들링 구현

Key Takeaway

복잡한 ML 파이프라인 배포 시 사전 최적화된 기본 이미지를 상속받은 후 필요한 의존성과 데이터를 Docker 이미지에 직접 포함하면, 배포 후 시작 시간 단축과 재현성 보장이 동시에 가능하다. 멀티 컴포넌트 처리에서 클라이언트-서버 간 상태 동기화는 비동기 메시지 패턴으로 관리해야 지연 없는 실시간 상호작용이 실현된다.

실천 포인트

다중 머신러닝 모델을 순차 실행하는 서비스를 배포할 때, 커스텀 Docker 이미지에 학습 데이터와 모델을 번들링해 Inference Endpoints에 배포하면 콜드 스타트 오버헤드를 제거하고 GPU 리소스를 종량제로 활용할 수 있다. 특히 오디오 같은 대용량 스트리밍 데이터의 경우 클라이언트 측 입출력 콜백을 독립 태스크로 설계하면 서버와의 동시 송수신이 가능해진다.

태그

#MLOps #Docker #WebSocket #Speech-to-Speech #Inference Endpoints

원문 읽기