피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Habana Gaudi2에서 BridgeTower 비전-언어 모델 파인튜닝 시 데이터 로딩 최적화로 Nvidia A100 대비 2.5배, H100 대비 1.4배 속도 향상
Accelerating Vision-Language Models: BridgeTower on Habana Gaudi2
AI 요약
Context
비전-언어 모델 학습 시 이미지 디코딩과 증강이 CPU에서 수행되고 전체 이미지가 장치로 전송되면서 데이터 로딩이 병목이 되고 있었다. 여러 Vision 모델 워크로드에서 이러한 데이터 로딩 제약이 빈번하게 발생하고 있었다.
Technical Solution
- CPU 데이터 로더에 더 많은 서브프로세스 할당: TrainingArguments의 dataloader_num_workers 인자를 기본값 0에서 증가시켜 배치 준비를 병렬화
- 이미지 디코딩 및 변환을 가속기 장치로 이동: raw bytes만 장치로 전송하고 Gaudi2에서 decoding과 image transformations을 직접 수행
- Optimum Habana v1.7 도입: Transformers 기반 모델을 2줄 변경만으로 Gaudi에 포팅 가능하도록 지원
- MediaPipe 데이터로더 활용: Gaudi2 전용 --mediapipe_dataloader 옵션으로 hardware-accelerated data loading 구현
- 동일한 하이퍼파라미터로 벤치마크 수행: 배치 크기 48로 Gaudi2, A100, H100 간 공정한 성능 비교
Impact
- Habana Gaudi2가 Nvidia A100 80GB 대비 2.5배 빠른 BridgeTower 파인튜닝 속도 달성
- Habana Gaudi2가 Nvidia H100 대비 1.4배 빠른 BridgeTower 파인튜닝 속도 달성
- BridgeTower Large(866M 파라미터) 모델에서 측정된 성능 개선
Key Takeaway
이미지 기반 워크로드에서는 데이터 로딩 병목을 CPU 병렬화와 장치 내 이미지 처리 오프로딩 두 가지 방식으로 해결할 수 있으며, 최신 하드웨어 가속기(Gaudi2)와 소프트웨어 라이브러리(Optimum Habana) 조합으로 기존 GPU 대비 획기적인 속도 향상을 이룰 수 있다.
실천 포인트
Vision-Language 모델을 학습하는 엔지니어는 Optimum Habana의 GaudiTrainingArguments에서 dataloader_num_workers 값을 CPU 코어 수에 맞춰 설정하고 --mediapipe_dataloader 옵션을 활성화하면, Habana Gaudi2 하드웨어에서 기존 Nvidia 장치 대비 1.4~2.5배 학습 속도 향상을 얻을 수 있다.