#grpo 아티클 모음

GeekNews

Memora: 장기 작업을 위한 확장형 메모리 시스템

원문 보존과 검색 추상화 분리로 RAG의 정보 손실을 해결한 확장형 메모리 시스템

AI/MLadvanced12 분 소요2026년 6월 30일

Dev.to

GRPO 기반 RL 및 OPD 증류를 통한 Qwen-Image-2.0 성능 최적화

The Interesting Part of Qwen-Image-2.0-RL Is Not the Image Score

AI/MLadvanced16 분 소요2026년 6월 29일

GeekNews

VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

3B 파라미터로 Opus 4.5급 추론 성능을 구현한 VibeThinker-3B

AI/MLadvanced17 분 소요2026년 6월 25일

Dev.to

3B 파라미터로 Opus 4.5 추론 성능을 능가한 SFT+GRPO 최적화

VibeThinker: A 3B-Parameter Model Just Beat Opus 4.5 on Reasoning — Here is How

AI/MLadvanced8 분 소요2026년 6월 23일

Hacker News

3B 파라미터 모델로 AIME26 97.1점 달성 및 추론 성능 극대화

VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

AI/MLadvanced7 분 소요2026년 6월 23일

Dev.to

Sigmoid Gate 기반 가중치 제어로 GRPO 학습 안정성 및 증류 효율 극대화

The Whole Paper Fits in One Sigmoid: Implementing the SDAR Gate

AI/MLadvanced16 분 소요2026년 6월 14일

Hacker News

350k 데이터 증강 및 GRPO 기반 DeepSeek-R1 오픈 소스 재현

Open Reproduction of DeepSeek-R1

AI/MLadvanced55 분 소요2026년 6월 11일

Dev.to

메모리 사용량 90% 절감한 브라우저 기반 Android 시뮬레이션 환경 구축

After burning through tens of billions of tokens, I built an Android-like OS that runs entirely in the browser

AI/MLadvanced5 분 소요2026년 5월 28일

Dev.to

Lorem Ipsum 섭입을 통한 RL 학습 효율 개선 및 수학 벤치마크 평균 4.62pts 상승

Lorem Ipsum Makes LLMs Smarter. No, Seriously.

AI/MLadvanced11 분 소요2026년 5월 11일

Hugging Face Blog

15T 토큰과 5단계 데이터 정제 기반의 고밀도 Dense LLM 설계

Granite 4.1 LLMs: How They’re Built

AI/MLadvanced38 분 소요2026년 4월 29일

Hugging Face Blog

Intel AI Labs가 Qwen3-4B에 Python 샌드박스 실행자와 GRPO 파인튜닝을 결합해 수학 추론 출력 길이 66% 감소와 정확도 향상 달성

DeepMath: A lightweight math reasoning Agent with smolagents

AI/MLintermediate15 분 소요2025년 12월 4일

Hugging Face Blog

AI-MO가 DeepSeek-R1 스타일의 reasoning-then-generation 파이프라인을 Lean 4 정리 증명에 적용해 1.7B 모델에서 76.63% Pass@32 달성

Kimina-Prover-RL

AI/MLadvanced19 분 소요2025년 8월 14일

Hugging Face Blog

TRL이 Vision Language Model 정렬을 위해 Mixed Preference Optimization, Group Relative Policy Optimization, Group Sequence Policy Optimization 3가지 새로운 알고리즘을 추가하고 vLLM 통합으로 온라인 정렬 훈련 지원

Vision Language Model Alignment in TRL ⚡️

AI/MLintermediate32 분 소요2025년 8월 7일

Hugging Face Blog

TRL이 vLLM을 분리된 서버 대신 같은 GPU에서 공동 실행하도록 변경해 GRPO 학습 중 유휴 GPU 시간 제거

No GPU left behind: Unlocking Efficiency with Co-located vLLM in TRL

AI/MLintermediate36 분 소요2025년 6월 3일

Hugging Face Blog

Open-R1 프로젝트가 DeepSeek-R1 파이프라인 재현을 위해 GRPO 훈련 및 대규모 합성 데이터 생성 인프라를 1주일 만에 구축

Open-R1: Update #1

AI/MLadvanced20 분 소요2025년 2월 2일

Hugging Face Blog

Hugging Face TRL 라이브러리가 Group Relative Policy Optimization(GRPO) 알고리즘을 구현해 강화학습 기반 LLM 추론 능력 향상을 DeepSeek R1 재현 수준으로 실현

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

AI/MLintermediate37 분 소요2025년 1월 31일