피드로 돌아가기
Dev.toAI/ML
원문 읽기
AST 모델 최적화로 정밀도 100% 및 False Positive 0 달성
Part 3: The Science - Hyperparameter Tuning & Getting to 100% Precision with Warp/Oz
AI 요약
Context
MIT AST 기반의 커피 로스팅 자동화 모델이 초기 91.1% 정확도와 87.5% 정밀도로 인해 실서비스 적용에 한계 노출. 적은 학습 데이터셋 규모와 Pre-trained 모델의 특성을 고려하지 않은 하이퍼파라미터 설정으로 인한 불안정한 수렴 문제 발생.
Technical Solution
- AudioSet Population Statistics 기반의 Normalization 상수(mean=-4.2677393, std=4.5689974) 적용을 통한 Distribution Mismatch 해결
- 학습 데이터셋 기반의 통계치 대신 Pre-trained 모델의 캘리브레이션 값을 하드코딩하여 Transfer Learning 효율 극대화
- Learning Rate(lr=5e-5) 조정을 통한 Catastrophic Forgetting 방지 및 Gradient Update 진폭 최적화
- 86M 파라미터 모델의 사전 학습된 오디오 표현력을 유지하며 분류 경계만 미세 조정하는 Fine-tuning 전략 채택
- Sliding Window(70% Overlap, 3s Hop) 설계를 통한 연속 오디오 스트림 내 이벤트 탐지 로직 구현
- 마이크 기기별 Acoustic Signature 차이로 인한 탐지 지연 문제를 데이터셋 커버리지 확대로 해결하는 데이터 엔지니어링 접근
Impact
- 모델 정밀도 87.5%에서 100%로 향상 및 False Positive 0개 달성
- 모델 정확도 91.1%에서 97.4%로 개선
- 특정 마이크 환경에서 0.3s 이하의 실시간 수준 탐지 지연 시간 기록
실천 포인트
1. Pre-trained 모델 사용 시 학습 데이터 통계치가 아닌 모델 생성 당시의 Normalization 상수 사용 여부 확인
2. 대규모 모델의 Fine-tuning 시 Loss 진동 발생 시 Learning Rate를 낮추어 Catastrophic Forgetting 가능성 검토
3. 센서 데이터 기반 AI 모델 설계 시 하드웨어(마이크, 카메라 등) 기기별 특성에 따른 데이터 불균형 및 추론 지연 가능성 분석
태그