피드로 돌아가기
The model isn’t the hard part: the data pipeline I built to teach Gemma 4 E2B to read Indian GST invoices.
Dev.toDev.to
AI/ML

Gemma 4 E2B LoRA 파인튜닝을 통한 로컬 기반 GST 송장 22개 필드 추출 최적화

The model isn’t the hard part: the data pipeline I built to teach Gemma 4 E2B to read Indian GST invoices.

angu102026년 5월 8일8intermediate

Context

외부 API 의존 시 발생하는 비용 부담과 데이터 프라이버시 문제를 해결하기 위해 로컬 LLM 기반 추출 시스템 필요. 일반 모델의 낮은 JSON 출력 규격 준수율과 필드 매핑 오류로 인해 특정 도메인에 최적화된 소형 모델 도입 결정.

Technical Solution

  • Mac 환경 내 MLX-LM 프레임워크를 활용한 Gemma 4 E2B-it 모델의 LoRA 파인튜닝 수행
  • 전체 파라미터 대비 0.157%(7.291M)의 최소 가중치만 업데이트하여 하드웨어 자원 최적화
  • Synthetic Data 기반의 초기 학습으로 JSON 스키마 준수 및 세무 산술 패턴 학습 가속화
  • 실제 송장 데이터의 레이아웃 변동성을 반영한 Layered Dataset 전략으로 일반화 성능 확보
  • Validation Loss 중심 평가에서 실데이터 기반의 Field-level Error 분석 체계로 전환

- 초기 학습 시 Synthetic Data로 스키마 및 기본 로직을 학습시킨 후 Real Data로 미세 조정할 것 - 학습 곡선(Loss Curve)보다 실데이터 기반의 필드별 정확도 검증 셋을 조기에 구축할 것 - 데이터 내 특수 문자나 잘못된 시퀀스가 학습 불안정성(NaN loss)을 유발하므로 데이터 정제 파이프라인을 필수적으로 구축할 것

원문 읽기