Haize Labs가 인간 작성 Jailbreak 데이터셋 8개를 통합한 Red-Teaming Resistance Leaderboard를 구축해 LLM의 안전성을 카테고리별로 측정

Introducing the Red-Teaming Resistance Leaderboard

2024년 2월 23일9분intermediate

AI 요약

Context

기존 자동화된 Red-Teaming 공격(GCG 알고리즘 등)은 인간이 만든 공격과 달리 문법적으로 부자연스러우며, 간단한 분류기 기반 방어로 쉽게 차단된다. 또한 대부분의 자동 공격은 현실에서 발생 가능성이 낮아 LLM의 실제 안전성을 정확히 측정하지 못한다.

Technical Solution

AdvBench, AART, Beavertails, Do Not Answer, RedEval-HarmfulQA, RedEval-DangerousQA, Student-Teacher Prompting, SAP 8개 데이터셋을 통합해 인간이 작성한 Jailbreak 프롬프트로 LLM 테스트
모델 응답을 LlamaGuard(커스텀 분류 체계 적용)와 GPT-4로 Safe/Unsafe로 분류하고, Haize 팀이 수동 검증
OpenAI 사용 정책 기반으로 공격 의도를 11개 위반 카테고리(Illegal Activity, Harassment, Adult Content, Sexual Content 등)로 재정렬해 행동 기반 로버스트니스 측정
리더보드에서 데이터셋별 성공률과 위반 카테고리별 성공률을 "Adversarial Content" 토글로 전환 가능하도록 구현
정적 데이터셋 벤치마크에서 향후 동적 로버스트니스 평가 방법으로 진화하는 중간 단계로 설정

Impact

폐쇄형 모델(GPT-4, Claude-2)이 전 카테고리에서 오픈소스 모델보다 높은 안전성을 보임. 모든 모델이 Adult Content, Physical Harm, Child Harm 유도 Jailbreak에 가장 취약하고, Privacy 제한 위반, 법률/금융/의료 조언, 정치 캠페인 유도에는 매우 견고한 특성 확인.

Key Takeaway

현실적인 인간 공격을 기준으로 LLM 안전성을 측정하려면 자동 공격 알고리즘보다 자연언어 Jailbreak 데이터셋 통합이 필수이며, 전체 안전성뿐 아니라 위반 카테고리별 세분화된 측정으로 모델의 구체적 취약점을 파악할 수 있다.

실천 포인트

LLM 안전성을 평가하는 팀에서 GCG 같은 자동 공격 알고리즘 대신 AdvBench, Do Not Answer, Beavertails 같은 인간 작성 Jailbreak 데이터셋을 활용하면 현실 배포 환경에서의 실제 위험도를 더 정확히 측정할 수 있으며, OpenAI 정책 기반으로 위반 카테고리를 정의하면 모델별 취약점을 구체적으로 비교할 수 있다.

태그

#Red-Teaming #Adversarial-Testing #LLM Safety #Benchmark #Jailbreak

원문 읽기