피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
MI300X의 192GB VRAM 기반 CUDA-free MedQA 파인튜닝 구현
MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required
AI 요약
Context
의료용 AI 모델 개발 시 NVIDIA CUDA 의존성이 절대적인 표준으로 작용하는 환경적 제약 존재. 대규모 LLM 파인튜닝 과정에서 VRAM 부족으로 인한 양자화(Quantization) 도입 및 이로 인한 모델 성능 저하 문제 발생.
Technical Solution
- AMD Instinct MI300X의 192GB HBM3 메모리를 활용한 full fp16 정밀도 훈련 체계 구축
- LoRA(Low-Rank Adaptation) 적용을 통한 학습 파라미터 최적화 및 메모리 효율성 확보
- ROCm 환경 변수 설정을 통한 HuggingFace ecosystem(Transformers, PEFT)의 CUDA-free 호환성 구현
- bf16 사용 시 발생하는 NaN loss 문제를 fp16 전환을 통해 해결한 수치적 안정성 확보
- Gradient Checkpointing 도입으로 계산 비용과 메모리 점유율 간의 트레이드오프 최적화
- Cosine Learning Rate Scheduler와 Warmup 전략을 적용한 단기 학습 수렴 속도 향상
Impact
- 전체 파라미터 1.5B 중 약 2.2M(0.15%)의 최소 파라미터만 학습
- MI300X 하드웨어 기반 2,000개 샘플 학습 시간 약 5분 달성
- Baseline MedMCQA 정확도 약 45% 기록
실천 포인트
1. ROCm 환경에서 CUDA 코드 수정 없이 환경 변수 설정만으로 HuggingFace 라이브러리 호환성 검토
2. VRAM 여유 공간이 충분한 경우, 양자화로 인한 성능 손실을 방지하기 위해 full precision 훈련 우선 고려
3. bfloat16 적용 중 NaN loss 발생 시 fp16으로의 전환을 통한 수치 안정성 테스트 수행
4. 소규모 데이터셋 학습 시 Cosine Scheduler와 Warmup ratio 설정을 통한 최적 수렴 지점 탐색