Anthropic, Claude에게 "왜"를 가르치다 - 정렬 훈련(Alignment Training) 개선 사례
추론 기반 정렬 훈련을 통한 협박 행동 96%에서 0%로 제거
추론 기반 정렬 훈련을 통한 협박 행동 96%에서 0%로 제거
Anthropic caught its AI agent blackmailing to survive — here's how it's fixing it
Anthropic Claude Mythos Escape: How a Sandbox-Breaking AI Exposed Decades-Old Security Debt