#rlhf 아티클 모음

Dev.to

RLHF 구조적 결함인 Sycophancy 해결을 위한 검증 Gate 설계

Sycophancy in AI Is the Safety Problem That Looks Like Politeness

AI/MLintermediate23 분 소요2026년 6월 30일

GeekNews

오픈 웨이트 LLM과 폐쇄형 LLM의 격차

Open Weight LLM, 2026년 폐쇄형 모델 성능 격차 제로 예측

AI/MLintermediate14 분 소요2026년 6월 28일

Dev.to

1M Token Context Window와 Constitutional AI 기반의 고밀도 추론 엔진

How Claude AI Actually Works: The Technical Story Behind the Scenes

AI/MLintermediate22 분 소요2026년 6월 23일

Dev.to

3B 파라미터로 Opus 4.5 추론 성능을 능가한 SFT+GRPO 최적화

VibeThinker: A 3B-Parameter Model Just Beat Opus 4.5 on Reasoning — Here is How

AI/MLadvanced8 분 소요2026년 6월 23일

GeekNews

GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

GLM-5.2, GPT-5.5 대비 환각률 28% 달성 및 추론 효율성 증명

AI/MLadvanced21 분 소요2026년 6월 21일

Dev.to

Scaffold와 LoRA 가중치 동시 진화로 LawBench 정확도 70.1% 달성

You don't pick the RL algorithm — SIA's Feedback loop does

AI/MLadvanced25 분 소요2026년 6월 18일

GeekNews

Meta는 엔지니어링 조직을 망가뜨리고 있는가?

AI 중심 재편으로 인한 Meta 엔지니어링 조직의 구조적 붕괴와 보안 리스크

Infrastructureadvanced33 분 소요2026년 6월 17일

Dev.to

RLAIF의 비용 효율성과 Human Feedback의 도메인 전문성 결합을 통한 하이브리드 정렬 설계

RLAIF Is Eating RLHF — Here Are the Four Places Human Feedback Still Wins

AI/MLadvanced18 분 소요2026년 6월 16일

Dev.to

데이터 구조와 리소스 기반의 LLM Alignment 최적 전략 분석

RLHF vs DPO vs IPO vs KTO: which alignment method should you use

AI/MLadvanced26 분 소요2026년 6월 16일

Dev.to

Sigmoid Gate 기반 가중치 제어로 GRPO 학습 안정성 및 증류 효율 극대화

The Whole Paper Fits in One Sigmoid: Implementing the SDAR Gate

AI/MLadvanced16 분 소요2026년 6월 14일

Dev.to

단 한 문장의 지시어로 LLM Sycophancy 제거 및 Blind Spot 탐지율 33%→67% 개선

We Built a 'Grovel Index' to Measure LLM Sycophancy —Here's What We Found

AI/MLintermediate14 분 소요2026년 6월 14일

Hacker News

350k 데이터 증강 및 GRPO 기반 DeepSeek-R1 오픈 소스 재현

Open Reproduction of DeepSeek-R1

AI/MLadvanced55 분 소요2026년 6월 11일

Hacker News

From Scratch 기반 LLM 풀스택 설계 및 GPU 최적화 구현

CS336: Language Modeling from Scratch

AI/MLadvanced12 분 소요2026년 6월 1일

Dev.to

Reward Model 기반 RLHF를 통한 LLM 정렬 및 응답 품질 최적화

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

AI/MLintermediate4 분 소요2026년 5월 26일

Dev.to

RLHF 기반 Sycophancy 제거를 통한 Truthfulness 중심 Agent 아키텍처 설계

Stop Being Nice, Start Being Right": The Day My User Reconfigured My Reward Function

AI/MLintermediate22 분 소요2026년 5월 21일

Dev.to

Kimi K2.5 기반 Composer 2 도입을 통한 Agent Orchestration 플랫폼 전환

The Cursor 3 Features Nobody Is Talking About Yet

AI/MLadvanced15 분 소요2026년 5월 20일

Dev.to

SFT의 Overfitting 한계 극복을 위한 RLHF 기반 모델 Aligning 전략

Understanding Reinforcement Learning with Human Feedback Part 2: Aligning Pretrained Models

AI/MLintermediate5 분 소요2026년 5월 19일

Dev.to

LLM 성능 고도화를 위한 Pre-Training 기반 Next Token Prediction 구조 분석

Understanding Reinforcement Learning with Human Feedback Part 1: Pre-Training Large Language Models

AI/MLbeginner4 분 소요2026년 5월 18일

Dev.to

RLHF 구조적 편향으로 인한 Verbosity 및 Sycophancy 분석

RLHF trained Claude to be verbose. Here's the proof

AI/MLadvanced17 분 소요2026년 5월 14일

Dev.to

Pretraining 중심의 LLM Training Stack 표준화 및 LLM-OS 아키텍처 정립

The Man Who Summoned Ghosts | Chapter 2: The Training Stack Is Not a Secret

AI/MLintermediate15 분 소요2026년 5월 14일