Michael Gamble가 Arm 기반 CPU에서 Stable Audio Open 모델을 실행해 GPU·클라우드 없이 온디바이스 실시간 음성 생성 구현

Real-Time AI Sound Generation on Arm: A Personal Tool for Creative Freedom

2025년 6월 3일7분intermediate

AI 요약

Context

음악 제작 중 Ableton Live의 워크플로우를 중단하지 않으면서 생성형 AI로 음성을 즉시 만들 필요가 있었다. 기존에는 클라우드 기반 추론이나 외부 음성 라이브러리 검색으로 창작 흐름이 끊어지는 문제가 있었다.

Technical Solution

Stability AI의 Stable Audio Open 모델을 Hugging Face에서 소싱해 PyTorch와 TorchAudio로 구동
Arm CPU 기반 온디바이스 추론 파이프라인 구축: GPU, 클라우드 의존성 제거
torch.set_num_threads(os.cpu_count())로 Arm CPU의 전체 스레드 활용해 멀티스텝 확산 실행 최적화
메모리 효율성 유지: 3회마다 gc.collect() 호출로 생성 사이클마다 메모리 정리
생성 엔진 튜닝: steps=7, cfg_scale=1, dpmpp-3m-sde 샘플러 사용해 지연 최소화
Metal(Apple Silicon) 및 CUDA 지원 추가해 디바이스 유연성 확보
Ableton Live 프로젝트 폴더 모니터링으로 생성된 .wav 파일 자동 통합

Key Takeaway

Arm CPU의 에너지 효율성과 오픈소스 생성형 AI 모델을 결합하면 클라우드 레이턴시 없이 엣지 디바이스에서 실시간 콘텐츠 생성이 가능하며, 이는 DAW 통합을 통해 창작자의 워크플로우 연속성을 보장한다.

실천 포인트

음악 제작 소프트웨어나 오디오 편집 도구를 개발하는 엔지니어라면, 생성형 AI 모델을 Arm CPU에서 torch.set_num_threads()로 모든 코어를 활용하고 정기적 메모리 정리를 병행해 구동하면, 클라우드 의존 없이 로컬에서 수 초 이내에 음성 파일을 생성해 DAW 파일시스템 모니터링으로 자동 통합할 수 있다.

태그

#PyTorch #Audio Processing #Generative AI #On-Device Inference #Arm

원문 읽기