Hugging Face가 언어 모델을 인간 피드백으로 직접 최적화하는 RLHF 3단계 파이프라인을 체계화해 ChatGPT 같은 정렬된 모델 개발의 기술적 기초 제시

Illustrating Reinforcement Learning from Human Feedback (RLHF)

2022년 12월 9일12분intermediate

AI 요약

Context

언어 모델의 "좋은 텍스트"를 정의하는 것은 주관적이고 문맥 의존적이어서 단순한 다음 토큰 예측 손실함수(cross entropy)만으로는 부족하다. BLEU, ROUGE 같은 메트릭도 참조 텍스트와의 단순 비교만 가능해 인간 선호도를 제대로 포착하지 못한다.

Technical Solution

Step 1: 언어 모델 사전학습 → GPT-3, 10M~52B 파라미터 트랜스포머 등 기존 사전학습 목표로 학습된 모델 사용, 필요시 "선호 가능한" 인간 생성 텍스트로 추가 파인튜닝
Step 2: 보상 모델 학습 → 사전학습 언어 모델에서 생성한 텍스트를 인간 어노테이터가 순위 매기고, 이를 통해 텍스트 시퀀스를 입력받아 스칼라 보상값을 출력하는 RM 모델 학습 (Amazon Mechanical Turk, GPT API 사용자 프롬프트 활용)
Step 3: 강화학습으로 언어 모델 파인튜닝 → RL 알고리즘 활용해 보상 모델의 피드백을 손실함수로 사용, 인간 가치 정렬 최적화
보상 모델 구조 선택지 → 사전학습 LM을 파인튜닝하거나 처음부터 학습 가능, Anthropic은 Preference Model Pretraining(PMP) 기법으로 샘플 효율성 개선
스칼라 보상 출력 필수 → 기존 RL 알고리즘과의 seamless 통합을 위해 보상을 단일 수치값으로 변환

Key Takeaway

RLHF는 고정된 손실함수의 한계를 인간 피드백으로 직접 모델을 최적화하는 방식으로 극복했으며, 이는 ChatGPT 같은 정렬 모델 개발의 핵심 기술이 되었다. 다만 RLHF의 설계 공간(모델 크기, RM 구조, 데이터 소스 등)은 아직 충분히 탐색되지 않았다.

실천 포인트

대규모 언어 모델을 운영하는 팀에서 인간 선호도 기반 정렬을 목표로 할 때, 기존 사전학습 모델 → 인간 순위 데이터 수집 → 보상 모델 학습 → RL 파인튜닝의 3단계 파이프라인을 따르면 주관적 품질 기준(창의성, 사실성, 실행 가능성 등)을 목표 함수로 구현할 수 있다.

태그

#HumanFeedback #RLHF #ReinforcementLearning #Alignment #LanguageModel

원문 읽기