DPO 도입을 통한 OCR Text Degeneration 59.4% 평균 감소

Direct Preference Optimization Beyond Chatbots

2026년 6월 3일14분advanced

AI 요약

Context

SFT(Supervised Fine-Tuning) 기반 모델의 토큰 단위 학습 방식은 Completion-level 실패를 감지하지 못하는 한계 존재. 이로 인해 특정 토큰 확률이 증폭되는 Attractor 영역에 진입할 경우 무한 반복되는 Text Degeneration 현상 발생.

Technical Solution

SFT 이후 추가 단계로 DPO(Direct Preference Optimization)를 적용한 2단계 학습 파이프라인 설계
Chat alignment의 주관적 기준 대신 정답 전사본(Chosen)과 반복 루프 발생본(Rejected)의 Binary Signal을 학습 데이터로 활용
Token-level likelihood 극대화 방식에서 탈피하여 Output 전체를 평가하는 Preference Learning으로 접근
추론 시점의 Repetition Penalty 같은 증상 완화책이 아닌, 확률 분포 자체를 교정하는 분포 수준의 해결책 구현
모델이 스스로 생성한 실패 사례를 학습 신호로 전환하는 Self-generated Failure Signal 루프 구축

Impact

모든 테스트 모델군에서 Text Degeneration 발생률 평균 59.4% 감소
특정 모델(Nanonets-OCR2–3B)의 경우 Degeneration Rate를 1.61%에서 0.20%로 낮추며 최대 87.6%의 개선율 달성
추출 퀄리티 저하 없이 구조적 생성 안정성만 독립적으로 향상

Key Takeaway

태스크 수행 능력(Capability)과 생성 안정성(Degeneration Resistance)은 서로 다른 확률 분포 특성이므로, SFT만으로 해결하려 하기보다 DPO와 같은 Preference 학습을 통해 실패 모드를 명시적으로 페널티화하는 설계 전략이 유효함.

실천 포인트

1. SFT 이후에도 반복적인 패턴 생성이나 Hallucination이 지속되는지 확인

2. 실패 사례가 일관적이고 기계적으로 식별 가능한지(Scoreable) 검토

3. 정답-오답 쌍의 Preference Dataset을 구축하여 DPO 단계 추가 적용

4. Inference-layer의 파라미터 튜닝 이전에 모델의 확률 분포 자체를 교정하는 학습 전략 우선 고려

태그

#Vision Language Model #DPO #Text Degeneration #SFT #Preference Learning

원문 읽기