피드로 돌아가기
ArtifactNet: 코덱 물리학으로 AI 생성 음악을 탐지하는 경량 포렌식 프레임워크
GeekNewsGeekNews
AI/ML

ArtifactNet: 코덱 물리학으로 AI 생성 음악을 탐지하는 경량 포렌식 프레임워크

RVQ 양자화 갭 분석을 통한 AI 음악 탐지 F1 0.983 달성

unohee2026년 4월 20일2advanced

Context

기존 AI 음악 탐지기는 학습 데이터 분포에 의존하여 새로운 생성기 등장 시 성능이 급격히 저하되는 한계 존재. AI 생성 오디오가 필수적으로 거치는 RVQ 과정의 비가역적 양자화 갭을 물리적 포렌식 신호로 정의하여 범용적 탐지 체계 구축 필요.

Technical Solution

  • RVQ로 인한 구조적 재구성 잔차를 포렌식 피처로 활용하는 물리 기반 탐지 로직 설계
  • Demucs v4 잔차를 Teacher 모델로 활용하여 ArtifactUNet에 지식을 전이하는 2단계 Knowledge Distillation 적용
  • STFT magnitude에 [0, 0.5] 범위의 Bounded-mask를 예측하는 UNet 구조를 통해 연산 효율 최적화
  • 잔차 신호를 조화음과 타악음으로 분해하고 시간 미분 및 Spectral Flux를 결합한 7채널 HPSS 피처 추출
  • 4.0M 파라미터 규모의 경량 CNN을 통한 4초 세그먼트 단위 분석 및 곡 단위 중앙값 판정 프로세스 구현

Impact

  • ArtifactBench 기준 F1 score 0.983 달성 및 FPR 1.5%로 억제 (CLAM 대비 FPR 67.8%p 개선)
  • AI 생성 음악의 유효 대역폭이 인간 음악(1,996Hz) 대비 현저히 낮은 200Hz 부근에 집중됨을 정량적으로 입증
  • 4.0M의 극소규모 파라미터로 194M 규모의 CLAM 모델보다 높은 탐지 정밀도 확보

1. 딥러닝 기반 분류기 설계 시 데이터 분포 의존성을 줄이기 위해 도메인 특화 물리적 제약(Physical Constraint) 추출 가능 여부 검토

2. 대형 모델의 무거운 추론 비용 해결을 위해 Knowledge Distillation을 통한 경량 Student 모델 구조 설계 적용

3. 단순 신호 분석보다 시간-주파수 영역의 미분 값이나 Spectral Flux 같은 고차원 피처 결합을 통한 신호 식별력 강화

원문 읽기