피드로 돌아가기
Dev.toAI/ML
원문 읽기
YOLOv12의 0.74 mAP 달성과 v26의 NMS-free 구조를 통한 추론 최적화
YOLO Evolution: Comparing YOLOv5, v11, v12, and v26 on the Cars Detection Dataset
AI 요약
Context
기존 Two-stage Detector의 높은 연산 비용과 느린 추론 속도를 해결하기 위해 Single-stage Regression 기반의 YOLO 아키텍처가 도입됨. 특히 Edge Device 배포 시 NMS(Non-Maximum Suppression) 단계에서 발생하는 연산 병목 현상이 실시간성 확보의 주요 제약 사항으로 작용함.
Technical Solution
- CSP-Darknet53 Backbone 기반의 YOLOv5를 통해 생산 환경에 적합한 추론 지연 시간의 일관성 확보
- Area Attention 및 R-ELAN 구조를 도입한 YOLOv12 설계를 통해 혼잡한 교통 상황 내 중첩 객체 식별 정밀도 향상
- NMS-free End-to-End Detector 구조를 채택한 YOLOv26 설계를 통해 후처리 연산 병목 제거 및 추론 파이프라인 단순화
- Kaggle 환경 내 Ultralytics 패키지의 Base directory 자동 인식 특성을 고려한 data.yaml 경로 설정 최적화
- 단일 프레임 검출의 한계를 극복하기 위해 ByteTrack 기반의 MOT(Multi-Object Tracking) 계층 추가 설계 제안
Impact
- YOLOv12: Fine-tuning 후 0.7402 mAP 달성 및 7.16 ms의 Latency 기록
- YOLOv26: NMS 제거를 통해 Fine-tuning 후 Latency를 8.20 ms에서 5.07 ms로 단축 및 0.7104 mAP 확보
- YOLOv11: Fine-tuned Inference Speed 4.47 ms로 최단 시간 달성
- YOLOv5: 4.8~4.9 ms의 매우 일관된 Latency 유지 및 0.6966 mAP 확보
Key Takeaway
정확도 우선순위 시 Attention 기반의 복잡한 아키텍처(v12)가 유리하며, Edge Device의 하드웨어 제약 상황에서는 후처리 단계(NMS)를 네트워크 내부로 통합한 End-to-End 구조(v26)가 실질적인 Latency 이득을 제공함.
실천 포인트
1. Edge Deployment 시 NMS 연산 비용이 병목인지 확인 후 NMS-free 모델 검토
2. 중첩 객체가 많은 데이터셋의 경우 Area Attention 적용 모델의 mAP 검증
3. 실시간 성능의 예측 가능성이 중요한 시스템에서는 v5와 같은 안정적 Latency 모델 우선 고려
4. 비디오 분석 시스템 확장 시 검출 모델 후단에 ByteTrack 등 MOT 알고리즘 결합 검토