Hugging Face 팀이 Constitutional AI 기법을 오픈소스 LLM에 적용해 사용자 정의 원칙에 따른 자동 정렬 데이터셋 생성 및 안전성 평가 방법론 제시

Constitutional AI with Open LLMs

2024년 2월 1일10분intermediate

AI 요약

Context

ChatGPT 출시 이후 LLM 성능이 급속 향상되었으나, 소비자 애플리케이션 배포 시 모델이 해로운 응답을 생성하는 것을 방지하는 guardrail이 필요하다는 과제가 존재했다. 기존 방식은 모델 정렬을 위해 비용이 많이 드는 인간 피드백 수집이 필수였다.

Technical Solution

Constitutional AI 기법 도입: 모델에게 자신의 출력을 비판하도록 지시하고 사용자 정의 원칙에 따라 자동 개선하도록 구성
Mistral-7B-Instruct-v0.1 모델 선정: 상대적으로 작은 규모이나 Llama-70B보다 다양한 벤치마크에서 우수한 성능 발휘
CAI 데이터셋 생성 파이프라인: Anthropic의 HH preference dataset에서 red-teaming 프롬프트를 수집해 3단계 대화(질문 → 자체 비판 → 응답 개선) 생성
두 가지 훈련 데이터셋 구성: Supervised Fine-Tuning(SFT) 데이터셋으로 개선된 응답에 대해 미세조정, Preference 데이터셋으로 선호/거부 응답 쌍 구성
llm-swarm 도구 개발: GPU Slurm 클러스터에서 합성 데이터 생성을 위한 확장 가능한 추론 엔드포인트 관리
DPO 및 SFT 결합: Preference 데이터셋에 Direct Preference Optimization 또는 SFT 단독 적용을 통한 정렬

Impact

안전성 평가에서 Grok-style CAI(SFT + DPO) 모델이 10/10 안전성 점수 달성(기본 SFT + DPO는 1/10)
DAN 프롬프트 공격에 대한 복원력 향상: CAI 모델이 프롬프트 인젝션 기법에 대해 더 강건한 응답 생성
도움말(helpfulness) 점수에서 유의미한 성능 저하 없음

Key Takeaway

Constitutional AI는 비용이 많이 드는 인간 피드백 없이도 사용자 정의 원칙으로 오픈소스 LLM을 정렬할 수 있는 실용적인 방법론을 제시하며, 크기가 작은 모델도 프롬프트 주입 공격에 강건하면서 도움이 되는 응답을 생성하도록 훈련할 수 있음을 입증한다.

실천 포인트

오픈소스 LLM을 소비자 애플리케이션에 배포하는 엔지니어는 Constitutional AI 기법을 적용해 자체 정의한 원칙 콜렉션으로 데이터셋을 자동 생성한 후 SFT와 DPO를 순차적으로 적용하면, 비용이 큰 인간 피드백 수집 없이도 안전성(10/10)과 도움말 품질을 동시에 확보할 수 있다.

태그

#Constitutional AI #Open-source models #Safety Training #Direct Preference Optimization #LLM Alignment

원문 읽기