피드로 돌아가기
Dev.toAI/ML
원문 읽기
HTDemucs 기반 SDR 최대 8.7dB 달성 및 GPU 가속을 통한 분리 성능 최적화
AI Vocal Remover Benchmark 2026: 6 Tools Tested with Python (SDR + Speed)
AI 요약
Context
AI Vocal Remover의 마케팅 수치와 실제 분리 품질 간의 간극을 정량적으로 검증하기 위한 벤치마크 수행. 기존 도구들의 불투명한 성능 지표와 CPU 기반 처리 시 발생하는 심각한 Latency 문제를 해결할 객관적 기준 정립 필요.
Technical Solution
- mir_eval 라이브러리의 Signal-to-Distortion Ratio(SDR)를 활용한 정량적 품질 측정 체계 구축
- MUSDB18 Ground-truth 데이터셋을 사용해 모델의 추론 결과와 원본 Instrumental 간의 오차 분석
- HTDemucs 모델의 GPU-backed API 구조를 통한 로컬 인프라 제약 해결 및 처리 속도 향상
- MP3의 손실 압축으로 인한 고주파 정보 소실이 분리 정밀도를 저하시키는 현상을 확인하여 WAV 변환 전처리 공정 도입
- API 기반 처리 시 429 Rate Limit 방지를 위한 동시성 제어 및 CPU 환경의 OMP_NUM_THREADS 최적화 적용
Impact
- HTDemucs 모델 사용 시 Pop 장르 기준 최대 8.7dB의 Instrumental SDR 확보
- 4분 길이 트랙 처리 시 M2 CPU 대비 GPU-backed API 활용으로 처리 시간 대폭 단축(평균 42초 소요)
- 192kbps 미만 MP3 대비 Lossless 포맷 사용 시 분리 정밀도 향상 확인
실천 포인트
- 고품질 음원 분리가 필요한 경우 HTDemucs 모델 및 GPU 인프라 우선 검토 - AI 모델 입력 전 ffmpeg를 통한
4
4.1kHz WAV 변환 전처리 단계 추가 - API 통합 시 최대 3개 병렬 작업으로 동시성 제한 및 Rate Limit 관리 - CPU 환경 배포 시 하이퍼스레딩이 아닌 물리 코어 수에 맞춘 스레드 설정