피드로 돌아가기
Fine-tuning YOLOv11 to detect stamps and signatures on banking documents - a practical walkthrough
Dev.toDev.to
AI/ML

YOLOv11 기반 뱅킹 문서 인식 최적화로 추론 속도 100ms 미만 달성

Fine-tuning YOLOv11 to detect stamps and signatures on banking documents - a practical walkthrough

Muhammad umair akram2026년 4월 30일8intermediate

Context

정형화된 뱅킹 문서 내 도장 및 서명 탐지를 위해 기존 LayoutLMv3의 무거운 추론 비용과 OpenCV의 낮은 강건성 문제를 해결해야 하는 상황. 특히 스캔 품질 저하, 스마트폰 촬영 각도, 팩스 노이즈 등 실제 운영 환경의 데이터 변동성에 따른 모델 성능 저하가 핵심 병목 지점임.

Technical Solution

  • 소형 객체 탐지 정밀도 향상을 위해 Input Image Size를 1024px로 상향 조정하여 해상도 손실 최소화
  • 문서 특성에 맞지 않는 Mosaic 및 Horizontal Flip 증강을 제거하고 ±5° 이내의 제한적 Rotation 적용
  • 실제 운영 환경의 노이즈를 반영한 JPEG 압축, Gaussian Blur, 밝기/대조 변동 중심의 Augmentation 전략 수립
  • 데이터 누수 방지를 위해 무작위 분할이 아닌 소스 문서 단위의 Train/Val/Test Split 수행
  • GPU 의존성 제거 및 배포 속도 향상을 위해 CUDA 없는 CPU 기반 경량 이미지 최적화 적용
  • 비즈니스 요구사항을 반영하여 mAP 중심이 아닌 Precision 최적화 기반의 평가 지표 설정

- 문서 인식 모델 설계 시 Mosaic 등 일반 이미지용 증강 기법 제거 여부 검토 - 검증 데이터셋 구성 시 동일 템플릿이 훈련셋에 포함되지 않도록 소스 기반 분리 적용 - GPU 인프라 승인 절차 비용을 고려하여 CPU 추론 성능과 배포 편의성 간의 Trade-off 분석 - mAP 수치보다 실제 운영 팀이 요구하는 Precision/Recall 운영 지점(Operating Point) 설정

원문 읽기