Hugging Face Transformers를 사용해 Vision Transformer(ViT) 모델을 beans 데이터셋에 파인튜닝하여 98.5% 평가 정확도 달성

Fine-Tune ViT for Image Classification with 🤗 Transformers

2022년 2월 11일12분beginner

AI 요약

Context

Transformer 아키텍처는 NLP 분야에서 혁신을 가져왔으나, 컴퓨터 비전 분야에 적용하기 위한 방법론이 부족했다. Vision Transformer(ViT)는 이미지를 NLP의 토큰화 방식처럼 패치로 분할하여 처리하는 접근법을 제시했으나, 실제 이미지 분류 작업에 적용하는 구체적인 파인튜닝 프로세스가 필요했다.

Technical Solution

이미지를 16x16 픽셀 패치로 분할하고 선형 투영으로 임베딩: google/vit-base-patch16-224-in21k 모델의 ViTImageProcessor를 사용하여 224x224 크기로 정규화 및 정규분포(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])로 정규화
Hugging Face datasets 라이브러리로 beans 데이터셋(3개 클래스, 총 이미지 샘플) 로드 및 전처리: ClassLabel 특성을 활용해 'angular_leaf_spot', 'bean_rust', 'healthy' 클래스 매핑
Trainer API를 통한 자동화된 파인튜닝: TrainingArguments에서 에포크 수, 배치 크기, 학습률 설정하여 반복 수행
학습된 모델을 Hugging Face Hub로 푸시: push_to_hub 파라미터를 True로 설정하여 'nateraw/vit-base-beans'로 공개 배포
이미지 그리드 시각화 함수로 클래스별 샘플 검증: PIL과 ImageDraw를 활용해 각 클래스별 3개 예시를 표시

Impact

평가 정확도(eval_accuracy): 0.985 (98.5%)
평가 손실(eval_loss): 0.0637
평가 처리 속도: 초당 62.356 샘플, 초당 7.97 스텝

Key Takeaway

Vision Transformer를 활용한 이미지 분류 작업은 Hugging Face의 통합 도구(datasets, transformers, Trainer)를 사용하면 NLP 파인튜닝과 동일하게 간단하게 수행할 수 있다. 사전학습된 모델의 ViTImageProcessor를 반드시 사용하여 일관된 이미지 전처리를 보장해야 모델이 올바르게 작동한다.

실천 포인트

컴퓨터 비전 분류 작업을 수행하는 엔지니어는 google/vit-base-patch16-224 같은 사전학습 ViT 모델의 공식 ViTImageProcessor를 파이프라인에 통합하고, 공개 데이터셋(beans, CIFAR-10 등)에서 Trainer API로 파인튜닝하면 98% 이상의 정확도를 빠르게 달성할 수 있다.

태그

#Fine-Tuning #Vision Transformer #Hugging Face Transformers #Image Classification

원문 읽기