피드로 돌아가기
Deep Dive: Vision Transformers On Hugging Face Optimum Graphcore
Hugging Face BlogHugging Face Blog
AI/ML

Graphcore가 Hugging Face Optimum 라이브러리를 통해 Vision Transformer 모델을 IPU 하드웨어에서 실행 가능하도록 최적화하여 흉부 X-ray 분류 작업의 빠른 프로토타이핑 실현

Deep Dive: Vision Transformers On Hugging Face Optimum Graphcore

2022년 8월 18일10intermediate

Context

Computer Vision 분야에서 CNN이 지배적이던 상황 속에서 Vision Transformer(ViT) 모델이 더 높은 인식 정확도를 더 낮은 계산 비용으로 제공하지만, 일반적인 하드웨어에서 충분한 성능과 효율성을 달성하기 어려웠다.

Technical Solution

  • Vision Transformer 모델을 Graphcore IPU 하드웨어에 최적화: 데이터 파이프라이닝과 모델 병렬성을 결합한 MIMD 아키텍처 활용
  • ImageNet-21k로 사전 학습된 ViT 모델 체크포인트를 Hugging Face Optimum Graphcore 라이브러리에 통합: 사용자가 직접 학습하지 않고 기존 체크포인트 활용 가능
  • 이미지를 작은 패치로 분할하는 ViT 아키텍처 도입: CNN의 픽셀 배열 대신 visual token 단위로 처리
  • 파이프라인 병렬성 추가: 배치 크기 증가, 메모리 접근 효율 개선, 데이터 병렬 학습의 매개변수 집계 통신 시간 감소
  • ChestX-ray14 데이터셋을 사용한 fine-tuning 튜토리얼 제공: 3 에포크 학습 후 validation AUC_ROC 점수 달성

Key Takeaway

의료 영상 분석과 같은 특화된 Computer Vision 작업에서 사전 학습된 ViT 모델과 IPU 기반 병렬 처리를 결합하면 개발 주기를 단축하고 높은 정확도를 빠르게 달성할 수 있다.


의료 영상 분류, 객체 감지, 세그멘테이션 등의 Computer Vision 작업을 수행하는 엔지니어는 Hugging Face Optimum Graphcore 라이브러리에서 제공하는 ImageNet-21k 사전 학습 ViT 체크포인트를 자신의 데이터셋으로 fine-tuning하면 직접 대규모 사전 학습을 수행하지 않고도 데이터 파이프라이닝과 모델 병렬성을 활용한 효율적인 학습을 실현할 수 있다.

원문 읽기