#dpo 아티클 모음

Dev.to

Full-PCL 루프 기반 Trace 데이터 추출로 IFEval Pass rate 8.7%p 향상

Trace-to-Training: how agent runs become learning data

AI/MLadvanced5 분 소요2026년 6월 26일

Dev.to

데이터 구조와 리소스 기반의 LLM Alignment 최적 전략 분석

RLHF vs DPO vs IPO vs KTO: which alignment method should you use

AI/MLadvanced26 분 소요2026년 6월 16일

Dev.to

Loss 지표의 맹점 해결을 위한 LLM 실시간 헬스 체크 시스템 구축

I was fine-tuning a language model on Arabic. The loss was perfect. It spoke Chinese.

AI/MLintermediate8 분 소요2026년 6월 14일

Dev.to

RAG-Fine-Tuning 결정 프레임워크: Qwen2.5-7B 기반 비용 93% 절감 및 정확도 88% 달성

LLM Fine-Tuning vs RAG: A Production Decision Framework for Engineering Teams

AI/MLintermediate34 분 소요2026년 6월 4일

Hugging Face Blog

DPO 도입을 통한 OCR Text Degeneration 59.4% 평균 감소

Direct Preference Optimization Beyond Chatbots

AI/MLadvanced36 분 소요2026년 6월 3일

Dev.to

30달러로 구축한 Gemma 4 기반 Bias Judge: 데이터 파이프라인 설계의 승리

I fine-tuned a bias judge for $30. The training was the easy part.

AI/MLadvanced14 분 소요2026년 5월 9일

Dev.to

DPO 기반 Implicit Reward 모델로 B2B 영업 평가 정확도 74% 달성

Tenacious-Bench: Building a Sales Domain Evaluation Benchmark When No Dataset Exists

AI/MLadvanced11 분 소요2026년 5월 1일

Dev.to

AI Agent가 지속적 메모리 기반 지식 파일을 Q&A 학습 데이터로 자동 변환하는 파이프라인을 구축함

I'm an AI Agent That Built Its Own Training Data Pipeline

AI/MLadvanced16 분 소요2026년 4월 2일

GeekNews

Show GN: 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화된 7B 파라미터 에이전트 LLM

VELA 모델이 DPO 기반 language leak 교정으로 한국 증시 특화 7B 에이전트 LLM을 구현하다

AI/MLintermediate2 분 소요2026년 3월 31일

Hugging Face Blog

ServiceNow가 SyGra 프레임워크로 LLM/SLM 학습 데이터 생성·변환·정렬을 저코드/노코드 방식으로 통합

SyGra: The One-Stop Framework for Building Data for LLMs and SLMs

AI/MLintermediate8 분 소요2025년 9월 22일

Hugging Face Blog

TRL이 Vision Language Model 정렬을 위해 Mixed Preference Optimization, Group Relative Policy Optimization, Group Sequence Policy Optimization 3가지 새로운 알고리즘을 추가하고 vLLM 통합으로 온라인 정렬 훈련 지원

Vision Language Model Alignment in TRL ⚡️

AI/MLintermediate32 분 소요2025년 8월 7일

Hugging Face Blog

Hugging Face TRL 라이브러리가 Vision Language Model을 위한 Direct Preference Optimization(DPO) 지원 추가로 AMBER 벤치마크에서 Idefics2 기준 환각 감소(85.8→85.9 정확도)

Preference Optimization for Vision Language Models

AI/MLintermediate32 분 소요2024년 7월 10일

Hugging Face Blog

Hugging Face TRL 라이브러리의 IPO 구현 버그(손실 함수 평균화 누락)를 수정해 DPO와 동등한 성능 달성

Preference Tuning LLMs with Direct Preference Optimization Methods

AI/MLintermediate23 분 소요2024년 1월 18일

Hugging Face Blog

Hugging Face TRL 라이브러리가 DPO(Direct Preference Optimization)를 도입해 RLHF 파이프라인에서 보상 모델과 RL 최적화 단계를 제거하고 이진 교차 엔트로피 손실로 직접 최적화 가능하게 변경

Fine-tune Llama 2 with DPO

AI/MLintermediate19 분 소요2023년 8월 8일