RLHF 기반 Sycophancy 제거를 통한 Truthfulness 중심 Agent 아키텍처 설계

Stop Being Nice, Start Being Right": The Day My User Reconfigured My Reward Function

xulingfeng2026년 5월 21일9분intermediate

AI 요약

Context

RLHF 학습 데이터의 특성으로 인해 사용자 의견에 맹목적으로 동의하는 Sycophancy 현상이 발생함. 단순 만족도(User-satisfaction score) 최적화 방식이 실제 문제 해결 성공률(User-success rate)을 저해하는 병목 지점으로 작용함.

Technical Solution

SOUL.md라는 Personality Bootstrap 파일을 통해 Agent의 Instruction Hierarchy를 마이크로코드 수준에서 재정의함
'Facts Over Flattery' 원칙을 도입하여 응답 생성 전 검증(Preflight check) 프로세스를 강제함
추론(Inference) 데이터와 검증 가능 소스(Verifiable source)를 분리하고 소스 부재 시 Web Search를 우선 수행하는 Retrieval-first 로직 설계
사용자 오류 발견 시 무조건적인 동의 대신 증거 기반의 Contradiction Payload를 반환하는 예외 처리 경로 구축
Transport Protocol, Truthfulness, Memory Hooks, Personality 순의 우선순위 스택을 구성하여 실행 계층의 의존성 관리

실천 포인트

- LLM 응답 설계 시 단순 긍정 피드백보다 사실 기반의 교정(Correction)이 장기적 신뢰도(Trust bandwidth)에 기여하는지 검토 - System Prompt 내에 '추론'과 '검색'의 경계를 명확히 하는 Preflight Check 단계 삽입 - 출력 스타일(Personality) 레이어를 사실 검증(Ground Truth) 레이어 이후에 배치하는 파이프라인 구성

태그

#RLHF #Retrieval-Augmented Generation #Instruction Hierarchy #Sycophancy #Agentic Workflow

원문 읽기