Habana Gaudi2에서 BridgeTower 비전-언어 모델 파인튜닝 시 데이터 로딩 최적화로 Nvidia A100 대비 2.5배, H100 대비 1.4배 속도 향상

Accelerating Vision-Language Models: BridgeTower on Habana Gaudi2

2023년 6월 29일10분intermediate

AI 요약

Context

비전-언어 모델 학습 시 이미지 디코딩과 증강이 CPU에서 수행되고 전체 이미지가 장치로 전송되면서 데이터 로딩이 병목이 되고 있었다. 여러 Vision 모델 워크로드에서 이러한 데이터 로딩 제약이 빈번하게 발생하고 있었다.

Technical Solution

CPU 데이터 로더에 더 많은 서브프로세스 할당: TrainingArguments의 dataloader_num_workers 인자를 기본값 0에서 증가시켜 배치 준비를 병렬화
이미지 디코딩 및 변환을 가속기 장치로 이동: raw bytes만 장치로 전송하고 Gaudi2에서 decoding과 image transformations을 직접 수행
Optimum Habana v1.7 도입: Transformers 기반 모델을 2줄 변경만으로 Gaudi에 포팅 가능하도록 지원
MediaPipe 데이터로더 활용: Gaudi2 전용 --mediapipe_dataloader 옵션으로 hardware-accelerated data loading 구현
동일한 하이퍼파라미터로 벤치마크 수행: 배치 크기 48로 Gaudi2, A100, H100 간 공정한 성능 비교

Impact

Habana Gaudi2가 Nvidia A100 80GB 대비 2.5배 빠른 BridgeTower 파인튜닝 속도 달성
Habana Gaudi2가 Nvidia H100 대비 1.4배 빠른 BridgeTower 파인튜닝 속도 달성
BridgeTower Large(866M 파라미터) 모델에서 측정된 성능 개선

Key Takeaway

이미지 기반 워크로드에서는 데이터 로딩 병목을 CPU 병렬화와 장치 내 이미지 처리 오프로딩 두 가지 방식으로 해결할 수 있으며, 최신 하드웨어 가속기(Gaudi2)와 소프트웨어 라이브러리(Optimum Habana) 조합으로 기존 GPU 대비 획기적인 속도 향상을 이룰 수 있다.

실천 포인트

Vision-Language 모델을 학습하는 엔지니어는 Optimum Habana의 GaudiTrainingArguments에서 dataloader_num_workers 값을 CPU 코어 수에 맞춰 설정하고 --mediapipe_dataloader 옵션을 활성화하면, Habana Gaudi2 하드웨어에서 기존 Nvidia 장치 대비

1.4~

2.5배 학습 속도 향상을 얻을 수 있다.

태그

#BridgeTower #Vision Language Models #Hardware Acceleration #Data Loading Optimization #Habana Gaudi2

원문 읽기