AST 모델 최적화로 정밀도 100% 및 False Positive 0 달성

Part 3: The Science - Hyperparameter Tuning & Getting to 100% Precision with Warp/Oz

syamaner2026년 4월 22일12분advanced

AI 요약

Context

MIT AST 기반의 커피 로스팅 자동화 모델이 초기 91.1% 정확도와 87.5% 정밀도로 인해 실서비스 적용에 한계 노출. 적은 학습 데이터셋 규모와 Pre-trained 모델의 특성을 고려하지 않은 하이퍼파라미터 설정으로 인한 불안정한 수렴 문제 발생.

AudioSet Population Statistics 기반의 Normalization 상수(mean=-4.2677393, std=4.5689974) 적용을 통한 Distribution Mismatch 해결
학습 데이터셋 기반의 통계치 대신 Pre-trained 모델의 캘리브레이션 값을 하드코딩하여 Transfer Learning 효율 극대화
Learning Rate(lr=5e-5) 조정을 통한 Catastrophic Forgetting 방지 및 Gradient Update 진폭 최적화
86M 파라미터 모델의 사전 학습된 오디오 표현력을 유지하며 분류 경계만 미세 조정하는 Fine-tuning 전략 채택
Sliding Window(70% Overlap, 3s Hop) 설계를 통한 연속 오디오 스트림 내 이벤트 탐지 로직 구현
마이크 기기별 Acoustic Signature 차이로 인한 탐지 지연 문제를 데이터셋 커버리지 확대로 해결하는 데이터 엔지니어링 접근

실천 포인트

1. Pre-trained 모델 사용 시 학습 데이터 통계치가 아닌 모델 생성 당시의 Normalization 상수 사용 여부 확인

2. 대규모 모델의 Fine-tuning 시 Loss 진동 발생 시 Learning Rate를 낮추어 Catastrophic Forgetting 가능성 검토

3. 센서 데이터 기반 AI 모델 설계 시 하드웨어(마이크, 카메라 등) 기기별 특성에 따른 데이터 불균형 및 추론 지연 가능성 분석

태그