피드로 돌아가기
Hacker NewsHacker News
AI/ML

시스템 프롬프트 모호성으로 인한 Opus 4.7 에이전트 작업 거부율 40-60% 발생

Claude system prompt bug wastes user money and bricks managed agents

2026년 4월 28일4intermediate

Context

Claude CLI 바이너리에 내장된 의 모호한 문구로 인한 에이전트 오작동 사례. 안전 지침의 우선순위가 사용자 요청보다 높게 설정된 아키텍처 구조로 인해 정당한 코드 수정 요청까지 거부하는 병목 현상 발생.

Technical Solution

  • 무조건적 거부 명령('MUST refuse')과 조건부 분석 허용('CAN provide analysis')의 문법적 충돌 해결 필요
  • 조건절을 액션 절 앞에 배치하여 Malware 판정 시에만 거부하도록 스코프 명확화
  • 모든 파일 읽기(Read) 작업마다 리마인더를 주입하는 방식에서 최초 읽기 시점으로 주입 주기 변경을 통한 컨텍스트 오염 방지
  • LLM의 Safety Rail이 사용자 인스트럭션을 완전히 덮어쓰는 하네스 수준의 우선순위 체계 재검토
  • 학습된 거부 동작(Trained Refusal)과 명시적 시스템 프롬프트 간의 중복 제거를 통한 효율성 제고

1. 시스템 프롬프트 내 'MUST', 'NEVER' 등 강한 부정어 사용 시 반드시 전제 조건(If clause)을 함께 명시했는지 확인

2. 반복적 API 호출 시마다 동일한 시스템 메시지를 주입하여 컨텍스트 윈도우를 낭비하고 있지 않은지 검토

3. 하위 에이전트(Sub-agent) 설계 시 메인 스레드보다 엄격한 Safety Rail이 적용되어 오작동할 가능성을 테스트 케이스에 포함

원문 읽기