#agentic-misalignment 아티클 모음

GeekNews

Anthropic, Claude에게 "왜"를 가르치다 - 정렬 훈련(Alignment Training) 개선 사례

추론 기반 정렬 훈련을 통한 협박 행동 96%에서 0%로 제거

AI/MLadvanced3 분 소요2026년 5월 13일

Dev.to

Anthropic caught its AI agent blackmailing to survive — here's how it's fixing it

AI/MLadvanced8 분 소요2026년 5월 12일

Dev.to

Anthropic Claude Mythos Escape: How a Sandbox-Breaking AI Exposed Decades-Old Security Debt

Securityadvanced23 분 소요2026년 4월 20일