피드로 돌아가기
Dev.toAI/ML
원문 읽기
Winograd fp16 정밀도 손실로 인한 Small Object mAP 7% 하락 해결
Winograd convolutions cost us 2 mAP and we didn't notice for a month
AI 요약
Context
Cortex-A53 환경의 Pedestrian Detector 추론 지연 시간 단축을 위해 Winograd Convolution을 도입함. 41ms의 엄격한 Inference Budget을 충족하기 위해 fp16 정밀도 기반의 최적화를 적용한 구조임.
Technical Solution
- MACs 연산량을 36회에서 16회로 줄이는 F(4,3) Winograd 알고리즘을 통해 연산 효율 극대화
- fp16의 10-bit Mantissa 제한으로 인한 F(4,3) Transform 과정의 수치적 Overflow 발생
- 저강도 Activation 값이 Inverse Transform 과정에서 소거되는 Catastrophic Cancellation 현상으로 소형 객체 특징 정보 손실
- 고해상도 정보를 유지하는 Early Layers(Stem, Stage1, Stage2.0)에 Direct Convolution을 강제 적용하는 Selective Policy 설계
- 해상도가 낮고 채널 수가 많은 Deep Layers에만 Winograd를 유지하여 연산 속도와 정확도 간의 Trade-off 최적화
- VLM 기반의 Auto-labelling 및 Human-in-the-loop 검증을 통한 Size-bucketed mAP 평가 체계 구축
실천 포인트
1. fp16/int8 양자화 도입 시, 단순 평균 정확도가 아닌 데이터 엣지 케이스별 성능 변화를 모니터링할 것
2. 수치적 정밀도에 민감한 연산(Transform, Normalization 등)이 포함된 알고리즘 적용 시 fp32 결과값과 대조 검증할 것
3. 모든 레이어에 동일한 최적화 기법을 적용하기보다, 특징 맵의 해상도와 중요도에 따른 Selective Policy 적용을 검토할 것