Topic Graph 기반 합성 데이터 파이프라인으로 저자원 언어 LLM 성능 최적화

Designing a Synthetic Data Pipeline for Persian LLM Fine Tuning: From Topic Graphs to QLoRA Evaluation

Mohammad Heydari2026년 6월 22일4분intermediate

AI 요약

Context

페르시아어와 같은 저자원 언어의 경우 고품질 Instruction 데이터셋 부재로 인해 모델의 지시 이행 능력 및 언어 유창성 저하 발생. 단순 데이터 증강으로는 Arabic 언어 오염 및 데이터 다양성 부족 문제를 해결하기 어려운 한계 존재.

Technical Solution

Mode Collapse 방지를 위해 51개 도메인 및 350개 서브토픽으로 구성된 Topic Tree 기반의 구조적 생성 방식 채택
GPT 4.1 mini와 nano 모델을 혼합 사용하여 구조적 추론 능력 확보 및 생성 비용 최적화 달성
Embedding 기반의 Semantic Deduplication을 통한 유사도 0.75 초과 샘플 제거로 데이터 중복 및 Overfitting 방지
LLM-as-a-Judge 체계를 도입하여 유창성, 관련성, 완결성 기준 5점 만점 중 3.5점 이상의 고품질 샘플만 선별
Unsloth 프레임워크 기반의 QLoRA를 적용하여 Qwen2.5 3B 모델의 메모리 효율적 파인튜닝 수행

Impact

정밀하게 큐레이션된 약 4,000개의 고품질 Instruction Pair 구축
학습 과정에서 3 epochs, 714 steps의 안정적인 Loss 수렴 확인
Base 모델 대비 페르시아어 출력의 유창성 향상 및 Arabic 언어 스위칭 현상 제거

Key Takeaway

모델 파라미터 스케일링보다 데이터 엔지니어링을 통한 데이터 품질 확보가 저자원 언어 정렬(Alignment)의 핵심 결정 요인임.

실천 포인트

- Free-form 프롬프팅 대신 Topic Graph를 설계하여 데이터 커버리지 확보 - 단순 키워드 중복 제거가 아닌 Embedding 기반의 Semantic Filtering 단계 추가 - 정성적 데이터 검수 자동화를 위해 LLM-as-a-Judge 스코어링 시스템 구축 - 전수 학습 대신 QLoRA를 활용하여 제한된 하드웨어 자원 내에서 최적의 성능 도출

태그

#QLoRA #Semantic Deduplication #Synthetic Data #LLM-as-a-Judge #Instruction-tuning

원문 읽기