피드로 돌아가기
Part 3: The Science - Hyperparameter Tuning & Getting to 100% Precision with Warp/Oz
Dev.toDev.to
AI/ML

AST 모델 최적화로 정밀도 100% 및 False Positive 0 달성

Part 3: The Science - Hyperparameter Tuning & Getting to 100% Precision with Warp/Oz

syamaner2026년 4월 22일12advanced

Context

MIT AST 기반의 커피 로스팅 자동화 모델이 초기 91.1% 정확도와 87.5% 정밀도로 인해 실서비스 적용에 한계 노출. 적은 학습 데이터셋 규모와 Pre-trained 모델의 특성을 고려하지 않은 하이퍼파라미터 설정으로 인한 불안정한 수렴 문제 발생.

Technical Solution

  • AudioSet Population Statistics 기반의 Normalization 상수(mean=-4.2677393, std=4.5689974) 적용을 통한 Distribution Mismatch 해결
  • 학습 데이터셋 기반의 통계치 대신 Pre-trained 모델의 캘리브레이션 값을 하드코딩하여 Transfer Learning 효율 극대화
  • Learning Rate(lr=5e-5) 조정을 통한 Catastrophic Forgetting 방지 및 Gradient Update 진폭 최적화
  • 86M 파라미터 모델의 사전 학습된 오디오 표현력을 유지하며 분류 경계만 미세 조정하는 Fine-tuning 전략 채택
  • Sliding Window(70% Overlap, 3s Hop) 설계를 통한 연속 오디오 스트림 내 이벤트 탐지 로직 구현
  • 마이크 기기별 Acoustic Signature 차이로 인한 탐지 지연 문제를 데이터셋 커버리지 확대로 해결하는 데이터 엔지니어링 접근

Impact

  • 모델 정밀도 87.5%에서 100%로 향상 및 False Positive 0개 달성
  • 모델 정확도 91.1%에서 97.4%로 개선
  • 특정 마이크 환경에서 0.3s 이하의 실시간 수준 탐지 지연 시간 기록

1. Pre-trained 모델 사용 시 학습 데이터 통계치가 아닌 모델 생성 당시의 Normalization 상수 사용 여부 확인

2. 대규모 모델의 Fine-tuning 시 Loss 진동 발생 시 Learning Rate를 낮추어 Catastrophic Forgetting 가능성 검토

3. 센서 데이터 기반 AI 모델 설계 시 하드웨어(마이크, 카메라 등) 기기별 특성에 따른 데이터 불균형 및 추론 지연 가능성 분석

원문 읽기