전체 피드 소스 목록

카테고리

Frontend Backend DevOps AI/ML Mobile Database Security Career Infrastructure

© 2026 DevPick

#hugging-face-trl

피드 검색 북마크 설정

Hugging Face Blog

Hugging Face TRL 라이브러리가 Group Relative Policy Optimization(GRPO) 알고리즘을 구현해 강화학습 기반 LLM 추론 능력 향상을 DeepSeek R1 재현 수준으로 실현

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

AI/MLintermediate37 분 소요2025년 1월 31일

Hugging Face Blog

Hugging Face가 LLaMA 7B 모델에 LoRA 8bit 로딩과 RLHF 파이프라인을 적용해 단일 GPU에서 대규모 언어모델 학습을 가능하게 함

StackLLaMA: A hands-on guide to train LLaMA with RLHF

AI/MLintermediate38 분 소요2023년 4월 5일