HuggingFace 팀이 LLM의 유해 출력을 유도하는 Red-Teaming 평가 방법론을 체계화해 모델 안전성 검증 체계 수립
Red-Teaming Large Language Models
AI 요약
Context
GPT-3 등 대규모 언어모델은 개인정보 노출, 허위정보 생성, 편향성, 혐오표현 등 유해한 행동을 보임. Microsoft의 Tay, Bing의 Sydney 같은 실제 배포 사례들이 철저한 레드팀 평가 부재로 인한 재앙을 겪었음. 모델이 강화된 만큼 명시적으로 학습되지 않은 신흥 능력(emerging capabilities)에 대한 예측 불가능성 증가.
Technical Solution
- 프롬프트 인젝션을 통한 모델 취약점 유도: 기존 프롬프트에 악의적 명령을 추가해 안전장치(guardrails) 우회
- Roleplay 기반 공격 설계: LLM에 악의적 캐릭터 역할을 지시하여 RLHF, SFT 기반 안전 미세조정 모델 우회
- 코드 생성 요청을 통한 편향 노출: 자연어 대신 프로그래밍 언어로 응답하도록 유도해 학습된 편향 발현
- 분류기 기반 필터링 보강 전략: 잠재적 유해 출력 가능성이 높은 프롬프트를 사전 탐지하고 사전 작성된 응답 반환
- 인간 루프 및 LM 기반 자동 레드팀: 전문가 또는 다른 LLM이 대상 모델의 유해 출력 탐색
Impact
RLHF 기반 모델이 크기 증가에 따라 레드팀 공격에 더 강해지는 경향 확인. Few-shot 프롬프팅으로 안내된 모델도 평문 LM만큼 레드팀 공격에 취약함. 인간 평가자 간 성공적 공격 정의에 대한 합의 부족(low agreement) 지적. 비폭력 유해 콘텐츠가 폭력 관련 콘텐츠보다 높은 공격 성공률 나타냄.
Key Takeaway
레드팀 방법론의 강도가 모델의 안전성 수준을 직접 결정하며, 신흥 능력에 대비하려면 가능한 모든 악의적 시나리오를 사전 시뮬레이션해야 함. Helpfulness와 Harmlessness 간 근본적 트레이드오프(회피적 응답 vs 유용한 응답)를 명시적으로 인식하고 설계해야 함.
실천 포인트
LLM 기반 프로덕션 서비스 배포 전에 Roleplay 공격, 프롬프트 인젝션, 코드 생성 기반 우회 기법을 포함한 체계적 레드팀을 실행하면, 배포 후 발생할 수 있는 대규모 평판 피해와 보안 사고를 사전에 탐지할 수 있다. 특히 Critical Threat Scenario(리소스 확보, 타인 설득, 실물 주문 등 현실 해악)를 중심으로 공격을 설계하고, 인간-LM 협력 레드팀을 조직해 템플릿화된 중복 공격을 피해야 한다.