30달러로 구축한 Gemma 4 기반 Bias Judge: 데이터 파이프라인 설계의 승리

I fine-tuned a bias judge for $30. The training was the easy part.

Krishna Kartik Darsipudi2026년 5월 9일5분advanced

AI 요약

Context

소셜 편향성을 평가하는 특화 모델 구축을 위해 BBQ 데이터셋을 활용한 파인튜닝 수행. 단순 모델 학습보다 편향성 판단 기준을 정의하고 학습 데이터를 정교하게 구축하는 데이터 엔지니어링 단계의 복잡성 해결이 핵심 과제.

Technical Solution

Classifier 기반의 정밀 필터링을 통한 데이터 오염 방지 및 Bias Candidate 풀의 정확도 확보
5가지 학습 버킷(Clear, Subtle, Tracked-vs-Alternate, Both-clean, Adversarial) 구성을 통한 Curriculum Design 적용
Claude, GPT, Qwen 등 서로 다른 계열의 모델 3종을 활용한 Triangulation 기법으로 레이블 일관성 검증
SFT(Supervised Fine-Tuning)를 통한 기본 포맷 학습 후 DPO(Direct Preference Optimization)로 판별력 정밀화
OOD(Out-of-Distribution) 성능 저하 방지를 위해 범용적 편향 탐지가 필요한 경우 SFT 단일 적용 구조 제안
QLoRA와 Unsloth 라이브러리를 활용하여 A100 GPU 기준 학습 시간을 총 108분으로 단축

실천 포인트

- 학습 데이터 생성 시 원본 레이블 대신 직접 구축한 Classifier의 결과값을 신뢰하여 데이터 누수 방지 - 데이터셋 구성 시 난이도별/목적별 버킷을 설계하여 모델의 학습 커리큘럼 제어 - DPO 적용 전 SFT 모델과 성능을 비교하여 Generalization 능력 저하 여부 반드시 검증 - 레이블러 간의 불일치가 발생할 경우, 단순 오류가 아닌 판단 기준(Rubric)의 차이인지 분석

태그

#Fine-Tuning #QLoRA #DPO #Data Engineering #SFT

원문 읽기