ArtifactNet: 코덱 물리학으로 AI 생성 음악을 탐지하는 경량 포렌식 프레임워크

RVQ 양자화 갭 분석을 통한 AI 음악 탐지 F1 0.983 달성

unohee2026년 4월 20일2분advanced

AI 요약

Context

기존 AI 음악 탐지기는 학습 데이터 분포에 의존하여 새로운 생성기 등장 시 성능이 급격히 저하되는 한계 존재. AI 생성 오디오가 필수적으로 거치는 RVQ 과정의 비가역적 양자화 갭을 물리적 포렌식 신호로 정의하여 범용적 탐지 체계 구축 필요.

RVQ로 인한 구조적 재구성 잔차를 포렌식 피처로 활용하는 물리 기반 탐지 로직 설계
Demucs v4 잔차를 Teacher 모델로 활용하여 ArtifactUNet에 지식을 전이하는 2단계 Knowledge Distillation 적용
STFT magnitude에 [0, 0.5] 범위의 Bounded-mask를 예측하는 UNet 구조를 통해 연산 효율 최적화
잔차 신호를 조화음과 타악음으로 분해하고 시간 미분 및 Spectral Flux를 결합한 7채널 HPSS 피처 추출
4.0M 파라미터 규모의 경량 CNN을 통한 4초 세그먼트 단위 분석 및 곡 단위 중앙값 판정 프로세스 구현

실천 포인트

1. 딥러닝 기반 분류기 설계 시 데이터 분포 의존성을 줄이기 위해 도메인 특화 물리적 제약(Physical Constraint) 추출 가능 여부 검토

2. 대형 모델의 무거운 추론 비용 해결을 위해 Knowledge Distillation을 통한 경량 Student 모델 구조 설계 적용

3. 단순 신호 분석보다 시간-주파수 영역의 미분 값이나 Spectral Flux 같은 고차원 피처 결합을 통한 신호 식별력 강화

태그