피드로 돌아가기
Show GN: 입으로낸 소리를 Sound effect로 만들어주는 오픈소스 프로젝트 (New UX for sound generation)
GeekNewsGeekNews
AI/ML

Show GN: 입으로낸 소리를 Sound effect로 만들어주는 오픈소스 프로젝트 (New UX for sound generation)

음성 모사 입력과 텍스트 결합을 통한 Sound Effect 생성 AI 모델 구현

khj60512026년 6월 13일1intermediate

Context

기존 사운드 생성 방식의 모호한 텍스트 묘사 한계로 인한 소통 비용 발생. 사용자의 구체적인 청각적 의도를 정밀하게 반영하는 인터페이스 부재 상황.

Technical Solution

  • 사용자의 입소리(Humming/Voice)를 오디오 가이드로 활용하는 Multi-modal Input 구조 설계
  • 음성 데이터와 텍스트 프롬프트를 동시에 처리하는 조건부 생성 모델 적용
  • 사운드 이펙트 특화 데이터셋 학습을 통한 생성 품질 고도화
  • 텍스트만으로 표현 불가능한 소리의 고저와 리듬을 음성 입력으로 보완하는 아키텍처 구현

1. 텍스트 프롬프트의 한계를 보완하기 위해 유사 도메인의 오디오 가이드를 Input으로 제공하는 방안 검토

2. 생성형 AI 도입 시 정성적 의도 전달을 위한 Multi-modal 인터페이스 설계 고려

원문 읽기