피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 전용 LoRA 최적화로 정확도 94.2% 달성
Why Your Gemma 4 Fine-Tuning is Failing (and How to Fix It)
AI 요약
Context
Gemma 4의 ClippableLinear 레이어와 동적 Image Token 구조로 인한 기존 LoRA 스크립트의 호환성 결여. 기존 방식으로 학습 시 Clipping 로직 우회에 따른 Loss 발산 및 NaN 에러 발생 가능성 존재.
Technical Solution
- target_modules="all-linear" 설정을 통한 재귀적 레이어 래핑으로 Clipping 로직 유지 및 안정적 학습 구현.
- Backward-Search Collation 방식을 도입하여 동적 Image Token 수에 관계없이 정확한 Label Masking 수행.
- Assistant turn marker 기반의 앵커링을 통해 Prompt 학습을 방지하고 데이터 정렬(Alignment) 무결성 확보.
- AutoModelForMultimodalLM 클래스 채택을 통한 Multimodal 네이티브 아키텍처 최적화.
- Image-First Prompting 컨벤션 적용으로 모델의 시각 정보 처리 효율 극대화.
Impact
- Gemma 3 Baseline(67%) 대비 Gemma 4 Fine-tuned 모델의 정확도 94.2%로 대폭 상승.
- NVIDIA RTX 6000 Pro(96GB VRAM) 및 QLoRA(4-bit) 활용으로 31B Dense 모델의 메모리 풋프린트를 18-20GB 수준으로 최적화.
실천 포인트
1. Gemma 4 Fine-tuning 시 target_modules를 'all-linear'로 설정하여 ClippableLinear 레이어 보존 여부 확인
2. Multimodal 데이터셋 구성 시 Image 데이터를 Text보다 선행 배치하는 Prompt 구조 적용
3. 단순 Tokenizing 기반 길이 계산 대신 Backward-Search 방식을 통한 Label Masking 구현 검토
4. 31B 모델 QLoRA 학습을 위해 최소 20GB 이상의 VRAM 확보 및 Multimodal 전용 클래스 사용