Winograd fp16 정밀도 손실로 인한 Small Object mAP 7% 하락 해결

Winograd convolutions cost us 2 mAP and we didn't notice for a month

Marco Rinaldi2026년 6월 17일4분advanced

AI 요약

Context

Cortex-A53 환경의 Pedestrian Detector 추론 지연 시간 단축을 위해 Winograd Convolution을 도입함. 41ms의 엄격한 Inference Budget을 충족하기 위해 fp16 정밀도 기반의 최적화를 적용한 구조임.

MACs 연산량을 36회에서 16회로 줄이는 F(4,3) Winograd 알고리즘을 통해 연산 효율 극대화
fp16의 10-bit Mantissa 제한으로 인한 F(4,3) Transform 과정의 수치적 Overflow 발생
저강도 Activation 값이 Inverse Transform 과정에서 소거되는 Catastrophic Cancellation 현상으로 소형 객체 특징 정보 손실
고해상도 정보를 유지하는 Early Layers(Stem, Stage1, Stage2.0)에 Direct Convolution을 강제 적용하는 Selective Policy 설계
해상도가 낮고 채널 수가 많은 Deep Layers에만 Winograd를 유지하여 연산 속도와 정확도 간의 Trade-off 최적화
VLM 기반의 Auto-labelling 및 Human-in-the-loop 검증을 통한 Size-bucketed mAP 평가 체계 구축

실천 포인트

1. fp16/int8 양자화 도입 시, 단순 평균 정확도가 아닌 데이터 엣지 케이스별 성능 변화를 모니터링할 것

2. 수치적 정밀도에 민감한 연산(Transform, Normalization 등)이 포함된 알고리즘 적용 시 fp32 결과값과 대조 검증할 것

3. 모든 레이어에 동일한 최적화 기법을 적용하기보다, 특징 맵의 해상도와 중요도에 따른 Selective Policy 적용을 검토할 것

태그