LLM 지시사항에서 금지 명령 선배치 시 핑크 엘리펀트 역설이 발생하여 위반률이 급증함을 실험 데이터로 증명

Do NOT Think of a Pink Elephant

Gábor Mészáros2026년 3월 31일5분intermediate

AI 요약

Context

다수의 개발자가 LLM 에이전트에게 "~하지 마라" 형식의 금지 명령을 먼저 전달한다. 이 방식은 ironic process theory에 따라 금지 대상 개념을 먼저 활성화시킨다. LLM은 금지 대상 토큰을 생성 경로에 먼저 배치하게 되어 의도한 결과를 얻지 못한다.

Technical Solution

지시사항 구성요소를 Directive → Context → Restriction 순서로 배치한다
Directive는 구체적 파일 경로와 패턴을 원문 영문 Backtick으로 명시한다
Context는 금지 대상 언급 없이 긍정적 결과만 설명하는 한 문장으로 구성한다
Restriction은 마지막에 배치하여 금지 대상 토큰이 생성 경로 후반부에 등장하도록 한다
각 구성요소는 시각적으로 분리된 단락으로 배치한다

Impact

500회 실험 결과, 제약조건 선배치 방식의 위반률은 31%였다. 명령 선배치 + 긍정적 근거 방식의 위반률은 7%로 감소했다. 순서 변경만으로 24포인트 개선되었다. 이 효과는 다른 모든 측정 변수보다 크다.

Key Takeaway

LLM 지시사항에서 구성요소 순서는 어떤 변수보다 성능에 큰 영향을 미친다. 금지 명령을 먼저 배치하는 인간 친화적 문체는 LLM에서 가장 나쁜 순서다.

실천 포인트

AGENTS.md에서 테스트 관련 지시사항 작성 시 Use Y. Here's why Y works. Don't use X. 형식으로 구성하면 지시사항 위반률을 31%에서 7%로 감소시킬 수 있다

태그

#AI Agents #Testing #Prompt Engineering #LLM #Instruction Design

원문 읽기