Dev.toRLHF 기반 Sycophancy 제거를 통한 Truthfulness 중심 Agent 아키텍처 설계Stop Being Nice, Start Being Right": The Day My User Reconfigured My Reward FunctionAI/MLintermediate22 분 소요5일 전