개발자가 Vision Transformer를 동물 행동 데이터셋으로 파인튜닝해 수의사 벤치마크(78%)를 초과하는 82.4% 정확도의 반려동물 스트레스 감지 API 구축

I Built an AI That Detects Pet Stress From Photos — Here's the Stack

Esther Studer2026년 3월 28일6분intermediate

AI 요약

Context

반려동물은 귀 위치, 꼬리 자세, 근육 긴장, 눈 모양 등 신체 언어로 스트레스를 표현하지만, 인간은 수의학 행동 연구에 따르면 이러한 신호의 약 70%를 놓친다. 표준 스마트폰 사진에서 이러한 신호를 안정적으로 감지할 수 있는 모델의 필요성이 있었다.

Technical Solution

11,847개의 레이블이 지정된 동물 행동 이미지 데이터셋 구축: AniML-Behavior 데이터셋과 인증된 동물 행동 전문가의 수동 레이블을 결합하고, 평가자 간 신뢰도 0.7 미만인 샘플 제거
google/vit-base-patch16-224 모델 파인튜닝: 6 에포크 학습으로 반응도(relaxed, mildly_aroused, stressed, fearful) 4개 클래스 분류, 패치 기반 어텐션 메커니즘으로 귀 끝, 눈 흰자, 턱 긴장 등 국소화된 신호 포착
FastAPI 기반 추론 엔드포인트 구현: 이미지 파일 업로드 후 예측 클래스, 신뢰도, 각 클래스별 확률 점수 반환
ONNX 내보내기로 인퍼런스 최적화: CPU 기준 1.2초 → 190ms로 단축
클라이언트 측 이미지 크기 조정(4K 원본 → 224×224 픽셀)과 비동기 큐(500ms 배치 처리) 도입으로 P95 레이턴시 210ms 달성
PyTorch-Grad-CAM을 활용한 히트맵 시각화: 어느 신체 부위가 예측을 주도했는지 표시하여 사용자 신뢰도 향상

Impact

홀드아웃 테스트셋 정확도: 82.4% (수의사 행동 전문가 벤치마크 78% 초과)
CPU 기준 인퍼런스 레이턴시: 1.2초 → 210ms (P95)
월 $6 VPS에서 운영 가능

Key Takeaway

모델 크기보다 도메인 특화 데이터가 더 강력하며, 정확도보다 보정(calibration)이 중요하다는 점을 보여준다. 파인튜닝된 ViT-Base는 GPT-4V를 능가했으면서도 리소스 효율적이었고, Grad-CAM 같은 설명 가능성 도구는 기술적 이해도가 낮은 사용자에게도 신뢰를 구축할 수 있다.

실천 포인트

컴퓨터 비전 모델을 특정 도메인에 배포할 때, ONNX 내보내기와 클라이언트 측 전처리를 결합하면 CPU 환경에서도 200ms 수준의 레이턴시를 달성할 수 있으며, 추가로 Grad-CAM 같은 어텐션 시각화를 제공하면 기술 사용자 외에도 신뢰도를 크게 높일 수 있다.

태그

#Model optimization #PyTorch #Vision Transformer #Computer Vision #FastAPI

원문 읽기