QAT 도입을 통한 희귀 결함 클래스 mAP 3.1pt 복구 및 Edge 추론 최적화

QAT vs PTQ on our edge vision model: 6 months of A/B data

Marco Rinaldi2026년 5월 28일5분advanced

AI 요약

Context

Jetson Orin Nano 기반의 강철 표면 결함 분류 모델에서 FP16 대비 Latency 및 Memory 절감을 위해 INT8 양자화 추진. 단순 PTQ 적용 시 데이터 불균형으로 인해 배경 분포가 양자화 스케일을 지배하며 희귀 결함 클래스의 검출 성능이 급격히 저하되는 병목 발생.

Technical Solution

데이터 불균형 해결을 위해 단순 샘플링 기반 PTQ에서 Fake-quant Op를 포함한 QAT 파이프라인으로 전환
필터 다양성 확보를 통한 성능 저하 방지를 위해 Per-channel Weight Quantization 설계 적용
TensorRT 10.4의 QDQ 노드 누락 문제를 해결하고자 특정 레이어에 Explicit Precision을 강제하는 Shim 레이어 구현
Training Cycle 지연을 최소화하기 위해 초기 Epoch은 FP16으로 학습 후 4 Epoch부터 양자화를 적용하는 Warm-start QAT 전략 채택
Group-norm의 Quantization 호환성 결여를 파악하여 Deployment 브랜치 내 Batch-norm으로 아키텍처 변경
LLM 기반의 실패 모드 분석 워크플로우를 통해 Specular Highlights와 같은 신규 오류 패턴 식별 및 데이터 재큐레이션 수행

실천 포인트

- [ ] 데이터셋 불균형이 심한 경우 PTQ의 Entropy Calibrator가 배경 분포에 편향되지 않았는지 검증했는가? - [ ] Vision 모델 적용 시 Per-tensor보다 Per-channel 양자화를 우선적으로 검토했는가? - [ ] QAT 도입 전 사용 중인 Custom Layer가 Target HW Accelerator(TensorRT 등)의 QDQ 노드를 완벽히 지원하는가? - [ ] 학습 시간 비용 절감을 위해 Warm-start QAT 전략을 고려했는가?

태그

#Edge AI #mAP #Quantization #TensorRT #QAT

원문 읽기