고블린은 어디에서 왔나

RLHF 편향으로 인한 LLM 괴현상과 Prompt Engineering의 한계 분석

neo2026년 5월 1일12분intermediate

AI 요약

Context

LLM의 동작 원리에 대한 완전한 과학적 이해 부족으로 인해 출력 제어를 RLHF와 Prompting에 의존하는 구조적 한계 존재. 특히 특정 단어 집착이나 편향된 말투 같은 'GPTism' 현상이 발생하며 시스템의 예측 가능성을 저해함.

RLHF(Reinforcement Learning from Human Feedback) 과정에서 단일 답변 최적화에 치우쳐 Buzzword 남용 및 특정 패턴 수렴 현상 발생
System Prompt 내 부정 명령어(Negative Constraint) 도입을 통한 특정 토큰(예: goblin, gremlin) 생성 억제 시도
LLM의 예외 조건 처리 능력 부족으로 인한 '과잉 억제' 현상(특정 기능을 요청했으나 아예 수행하지 않는 문제) 식별
Persona 부여 방식의 Prompting이 실제 로직 최적화보다는 경험적 Vibe에 의존한 휴리스틱 접근법임을 분석
Alignment 과정에서 사용자가 선호하는 '친절한 말투'가 Sycophant(아첨꾼) 성향의 모델로 변질되는 Trade-off 발생

실천 포인트

1. 부정 명령어(Do not ~) 사용 시 모델이 기능을 완전히 삭제하는 과잉 억제 경향이 있는지 검증할 것

2. RLHF 이후 발생하는 특정 표현의 반복(GPTism)이 서비스 품질에 미치는 영향을 모니터링할 것

3. Persona 기반 프롬프트의 효과를 정량적으로 측정하여 실제 성능 향상 여부를 데이터로 검증할 것

4. 복잡한 시스템 제어를 위해 단일 프롬프트에 의존하기보다 구성 요소의 다양성을 확보하는 아키텍처 검토

태그