피드로 돌아가기
Dev.toAI/ML
원문 읽기
데이터 구조와 리소스 기반의 LLM Alignment 최적 전략 분석
RLHF vs DPO vs IPO vs KTO: which alignment method should you use
AI 요약
Context
SFT 모델의 유해 출력 제거 및 성능 유지를 위한 Alignment 필요성 증대. 기존 RLHF의 복잡한 3단계 파이프라인과 Reward Model 유지 비용 및 PPO의 하이퍼파라미터 민감도로 인한 배포 지연 발생.
Technical Solution
- RLHF: Reward Model 학습 후 PPO를 통한 Online Optimization 수행 및 KL Penalty를 활용한 Policy Divergence 억제
- DPO: Bradley-Terry 모델의 Closed-form 솔루션을 적용하여 Reward Model 없이 Reference Policy와 선호도 데이터를 직접 최적화
- IPO: DPO의 암시적 보상 파라미터화 문제를 해결하기 위해 Identity Regularization을 추가하여 노이즈 섞인 데이터셋에서의 학습 안정성 확보
- KTO: Pairwise Comparison 없이 개별 샘플의 Binary Score(Good/Bad)만으로 최적화하는 구조를 통해 프로덕션 로그 데이터 활용 극대화
- 정렬 방식의 선택 기준을 데이터 형태(Pairwise vs Binary)와 컴퓨팅 자원 규모에 따라 계층적으로 설계
실천 포인트
- Clean Pairwise 데이터와 제한된 리소스 상황에서는 DPO 우선 검토 - 데이터셋 내 Annotation 퀄리티가 불일치할 경우 IPO의 Regularization 적용 - 프로덕션 내 Thumbs-up/down 로그만 보유한 경우 KTO 채택 - Alignment 후 MMLU 등 벤치마크 테스트를 통해 Capability Regression 여부 필수 확인