피드로 돌아가기
Hacker NewsHacker News
AI/ML

H100 없이 Mac에서 구현하는 Gemma 4 멀티모달 파인튜닝

Show HN: Gemma 4 Multimodal Fine-Tuner for Apple Silicon

2026년 4월 7일9intermediate

Context

멀티모달 모델 학습을 위해 고가의 NVIDIA H100 GPU 서버 대여가 필수적인 상황. 테라바이트 단위의 대규모 학습 데이터를 로컬 SSD로 복사해야 하는 스토리지 부담 발생. Apple Silicon 환경에서 텍스트, 이미지, 오디오를 동시에 처리하는 네이티브 툴킷 부재.

Technical Solution

  • MPS-native 설계를 통해 NVIDIA GPU 없이 Apple Silicon의 GPU 가속만으로 모델 학습 수행
  • PEFT LoRA 기법을 적용하여 전체 파라미터가 아닌 일부 어댑터만 학습시키는 효율적 구조
  • GCS 및 BigQuery 스트리밍 데이터로더를 구축하여 로컬 저장 공간 소모 없이 클라우드 데이터를 실시간으로 학습에 활용
  • Hugging Face Gemma 체크포인트와 PEFT를 결합하고 SafeTensors 포맷으로 내보내는 통합 파이프라인 설계
  • Python 3.10+ 및 arm64 네이티브 환경 기반의 의존성 최적화로 Rosetta 변환 오버헤드 제거
  • PYTORCH_MPS_HIGH_WATERMARK_RATIO 설정을 통해 MPS 메모리 할당량을 제어하는 OOM 방지 전략

Key Takeaway

특수 하드웨어 의존성을 낮추기 위해 전용 가속기(MPS) 최적화와 데이터 스트리밍 아키텍처를 결합하여 로컬 엔지니어링 환경의 제약을 극복한 사례.


Apple Silicon 환경에서 학습 시 Python arm64 네이티브 설치 여부를 확인하고, 메모리 부족 발생 시 High Watermark Ratio를 0.7~0.9 사이로 조정할 것

원문 읽기