전체 피드 소스 목록

카테고리

Frontend Backend DevOps AI/ML Mobile Database Security Career Infrastructure

© 2026 DevPick

#trl

피드 검색 북마크 설정

Dev.to

TRL 기반 Gemma 4 Multimodal Fine-Tuning을 통한 도구 호출 최적화

Fine-Tuning Gemma 4 for Function Calling with TRL's New Multimodal Tool Support

AI/MLintermediate25 분 소요2026년 5월 24일

Hugging Face Blog

Hugging Face TRL이 RapidFire AI를 통합해 LLM 파인튜닝 설정 비교 속도를 16~20배 단축

20x Faster TRL Fine-tuning with RapidFire AI

AI/MLintermediate15 분 소요2025년 11월 21일

Hugging Face Blog

TRL이 Vision Language Model 정렬을 위해 Mixed Preference Optimization, Group Relative Policy Optimization, Group Sequence Policy Optimization 3가지 새로운 알고리즘을 추가하고 vLLM 통합으로 온라인 정렬 훈련 지원

Vision Language Model Alignment in TRL ⚡️

AI/MLintermediate32 분 소요2025년 8월 7일

Hugging Face Blog

TRL이 vLLM을 분리된 서버 대신 같은 GPU에서 공동 실행하도록 변경해 GRPO 학습 중 유휴 GPU 시간 제거

No GPU left behind: Unlocking Efficiency with Co-located vLLM in TRL

AI/MLintermediate36 분 소요2025년 6월 3일

Hugging Face Blog

Hugging Face TRL 라이브러리가 Vision Language Model을 위한 Direct Preference Optimization(DPO) 지원 추가로 AMBER 벤치마크에서 Idefics2 기준 환각 감소(85.8→85.9 정확도)

Preference Optimization for Vision Language Models

AI/MLintermediate32 분 소요2024년 7월 10일

Hugging Face Blog

Hugging Face TRL 라이브러리가 DPO(Direct Preference Optimization)를 도입해 RLHF 파이프라인에서 보상 모델과 RL 최적화 단계를 제거하고 이진 교차 엔트로피 손실로 직접 최적화 가능하게 변경

Fine-tune Llama 2 with DPO

AI/MLintermediate19 분 소요2023년 8월 8일