피드로 돌아가기
I Fine-Tuned Gemma 4 for LaTeX OCR. The Success Was the Problem.
Dev.toDev.to
AI/ML

Gemma 4 LoRA 튜닝을 통한 LaTeX OCR 구현과 Shortcut Learning의 한계 분석

I Fine-Tuned Gemma 4 for LaTeX OCR. The Success Was the Problem.

Rukshan J. Senanayaka2026년 4월 21일12intermediate

Context

LaTeX OCR 성능 향상을 위해 Gemma 4-E2B-it 모델에 LoRA 기법을 적용한 Fine-tuning 시도. 훈련 데이터 분포에 과하게 적응하여 실제 추론 시 일반화 성능이 결여되는 Overfitting 문제 발생.

Technical Solution

  • LoRA(rank 8, alpha 8)를 통한 파라미터 효율적 튜닝으로 58MB 규모의 경량 Adapter 설계
  • Vision-Language 모델의 모든 Linear Layer에 가중치를 적용하여 이미지-텍스트 매핑 최적화
  • bf16 정밀도와 Linear Decay 스케줄러를 활용한 8.5k Step의 학습 프로세스 구축
  • Eval Loss 모니터링을 통한 최적 Checkpoint(Step 6,013) 식별 및 Early Stopping 필요성 검증
  • 훈련 데이터의 픽셀 통계치(색상, 대비)에 의존하는 Shortcut Learning 현상을 단일 변수 스트레스 테스트로 규명
  • 추론 시 훈련 데이터와 동일한 Prompt 형식을 강제하여 Distribution Shift 최소화 전략 수립

1. Training Loss 하락보다 Eval Loss의 정체 구간을 확인하여 Early Stopping 시점 결정

2. In-distribution 데이터 외에 색상, 배경 등 단일 변수를 변경한 Stress Test 수행

3. Fine-tuning 시 사용한 Prompt를 문서화하여 추론 단계에서 동일하게 적용

4. 데이터 증강(Augmentation)을 통해 모델이 픽셀 통계치가 아닌 기하학적 형상(Glyph Shape)을 학습하도록 강제

원문 읽기