Habana가 Gaudi2 AI 가속기를 Nvidia A100 80GB와 벤치마크해 BERT 사전학습에서 1.8배, Stable Diffusion 추론에서 2.44배 성능 향상 달성

Faster Training and Inference: Habana Gaudi®2 vs Nvidia A100 80GB

2022년 12월 14일12분intermediate

AI 요약

Context

Nvidia A100 80GB는 AI 모델 학습과 추론의 표준 가속기였으나 성능과 메모리 한계가 존재했다. Habana Labs는 다양한 규모의 모델에서 더 빠른 학습 및 추론을 가능하게 하는 대안 하드웨어가 필요했다.

Technical Solution

Gaudi2 하드웨어 사양 변경: 메모리를 32GB(1세대 Gaudi)에서 96GB로 확대하여 더 큰 배치 크기 지원
SynapseAI SDK 호환성 유지: 1세대 Gaudi와 Gaudi2 간 완전한 소프트웨어 호환성 보장으로 코드 변경 없이 마이그레이션 가능
🤗 Optimum Habana 통합: Transformers/Diffusers 라이브러리와 SynapseAI 간 표준화된 인터페이스 제공
BERT 사전학습 배치 크기 최적화: 배치 크기 32에서 64로 증가시켜 수렴 단계 20k step으로 감소
Stable Diffusion 추론 배치 처리: GPU와 달리 배치 단위 이미지 생성으로 처리량 향상 (첫 2개 배치는 컴파일로 인한 오버헤드 제외)

Impact

BERT 사전학습(배치 크기 32): 처리량 520.2 → 1580.2 samples/s로 3.04배 향상, A100 대비 1.89배 향상
BERT 사전학습(배치 크기 64): 처리량 1835.8 samples/s로 A100 1082.6 대비 2.08배 향상
BERT 전체 학습 시간: 8시간 53분 → 1시간 33분으로 5.75배 단축(배치 크기 64, 20k step 기준)
Stable Diffusion 추론: 19.7 samples/s로 A100 8.07 대비 2.44배 향상

Key Takeaway

하드웨어 메모리 증설과 기존 SDK 호환성 유지의 조합으로 사용자 코드 변경 없이 최대 5.75배의 학습 시간 단축을 달성했다. 이는 새로운 가속기 도입 시 소프트웨어 에코시스템 호환성이 사용자 채택률을 크게 좌우함을 보여준다.

실천 포인트

Habana Gaudi2 기반 모델 학습/추론 인프라를 구축하는 팀은 기존 Gaudi 코드를 그대로 Gaudi2에 배포한 후 배치 크기를 메모리 한계 범위(96GB)까지 증가시키면 수렴 속도 개선과 처리량 향상을 동시에 얻을 수 있다. 특히 BERT 같은 사전학습 작업에서는 배치 크기 조정만으로도 학습 시간을 1/5 이상 단축할 수 있다.

태그

#AI Accelerator #Performance Benchmarking #Habana Gaudi2 #Model Training #Inference Optimization

원문 읽기