피드로 돌아가기
컬리 기술블로그AI/ML
원문 읽기
배송 완료 사진 속 객체 탐지를 통한 수기 검수 비용 줄이기
컬리가 Data-Centric AI 방식으로 배송 완료 사진의 퍼플 박스·종이봉투 객체 탐지 자동화를 구축해 수기 검수 비용 93% 절감
AI 요약
Context
배송 완료 사진 검수는 수작업으로 진행되고 있었으며, 퍼플 박스나 종이봉투 없이 상품이 그대로 배송되는 경우를 빠르게 확인하고 조치해야 했다. 이 수기 검수 비용을 줄이기 위해 AI 기반 자동화가 필요했다.
Technical Solution
- 퍼플 박스 탐지: 리뷰 도메인 기존 모델(YOLOv11)을 배송 완료 도메인으로 fine-tuning, precision 0.9891→0.9992, recall 0.8677→0.9792로 향상
- 종이봉투 탐지: 275장 직접 라벨링으로 초기 모델 구축, 1회 라벨링 개선 주기 후 precision 0.8334→0.9694, recall 0.7605→0.9258로 향상
- 데이터 엔진 도입: 모든 이미지를 직접 라벨링하지 않고, 모델 추론 결과 중 오답만 수정하는 pseudo-label 방식으로 라벨링 비용 최소화
- 3단계 라벨링 품질 개선 주기: (1) 미라벨 데이터 추론으로 가짜 라벨 생성 (2) Result Validator의 이진 분류 검증 + Detail Corrector의 바운딩 박스 수정 (3) 개선 데이터로 모델 재학습
- 모델 선택: YOLOv11 + Ultralytics 활용으로 전처리, 데이터 증강 등을 간단한 코드로 구현
Impact
- 퍼플 박스 탐지 모델이 배송 기사 기록과 91.3% 일치, 불일치 사항 수기 검수 결과 AI가 7.3%에서 정답률이 더 높음
- 라벨링 개선 과정에서 바운딩 박스 직접 수정 비율 퍼플 박스 7%, 종이봉투 6% 에 불과
- 퍼플 박스·종이봉투 배송 건 검수 대상 제외로 수기 검수 비용 93% 감소
Key Takeaway
Data-Centric AI 철학으로 충분한 성능의 초기 모델에서 시작하면, 모든 데이터를 라벨링하지 않고도 선택적 수정으로 라벨링 비용을 획기적으로 줄이면서 목표 성능을 달성할 수 있다. 도메인 적응(리뷰 이미지에서 배송 완료 이미지로의 전환)은 특히 recall 성능 향상에 중요한 역할을 한다.
실천 포인트
객체 탐지 모델 운영 팀이 직면한 높은 라벨링 비용 문제에서, 도메인 적응 가능한 기존 모델이 있다면 그것으로 초기 pseudo-label을 생성한 후 오분류 사항만 선택적으로 수정하는 반복 주기를 도입하면, 전체 라벨링 작업량의 6~7%만 투입해도 precision 0.96~0.99, recall 0.92~0.98 수준의 운영 성능을 확보할 수 있다.