Hugging Face가 ChatGPT 등 대화형 AI 에이전트의 학습 기법(IFT, SFT, RLHF, CoT)을 비교 분석해 대화형 언어 모델 개발의 핵심 패턴 정리

What Makes a Dialog Agent Useful?

2023년 1월 24일12분intermediate

AI 요약

Context

ChatGPT의 등장 이후 RLHF, SFT, IFT, CoT 등 다양한 학습 기법이 주목받고 있으나, 각 기법의 역할과 조합 방식에 대한 체계적 정리가 부족했다. 기존 대화형 AI 모델들(LaMDA, BlenderBot, Sparrow, Claude 등)이 서로 다른 아키텍처와 학습 전략을 취하고 있어 엔지니어들이 어떤 방식이 효과적인지 판단하기 어려웠다.

Technical Solution

Instruction Fine-Tuning(IFT) 도입: 기본 언어 모델에 인간 작성 지시문과 LM 생성 데이터로 구성된 다양한 작업 지시 데이터(instruction, input, output)를 추가 학습
지시 데이터 생성 방식 다양화: 순수 모델 생성(Unnatural Instructions), 소규모 고품질 시드 후 부트스트래핑(Self-instruct), 기존 NLP 데이터셋 재활용(T0, FLAN) 등 세 가지 방식 적용
Supervised Fine-Tuning(SFT) 적용: 인간 주석을 활용한 추가 학습으로 안전성과 유용성 강화
Chain-of-Thought(CoT) 파인튜닝 추가: 단계별 사고 과정이 필요한 작업 성능 향상 및 민감한 주제에 대한 회피 응답 감소
RLHF 병렬 적용: 인간 피드백 신호를 활용한 강화학습으로 모델 정렬 최적화(ChatGPT, InstructGPT, Sparrow, Claude)

Impact

IFT 데이터 규모: 사전학습 데이터(1.4T~2.81T 토큰) 대비 수백 개 수준의 극소량 데이터로 효과 달성
InstructGPT의 IFT 데이터: 12.7K 샘플(ChatGPT는 더 많을 것으로 추정)
모델 크기 범위: 52B(Claude)~175B(GPT-3.5, BlenderBot 3) 파라미터 범위에서 다양한 구현 사례 보유
Fine-tuning 데이터 규모 차이: Claude의 150K + LM 생성 데이터 조합 방식

Key Takeaway

대화형 AI의 성능은 단일 기법이 아닌 IFT → SFT → RLHF의 순차적 조합과 CoT 추가 학습을 통해 달성되며, 전체 성능을 결정하는 요소(사전학습 데이터의 중요도, RLHF의 필수성, Red-teaming의 영향)에 대한 체계적 비교 연구가 여전히 필요하다.

실천 포인트

대화형 언어 모델 개발 팀은 기존 기본 모델에서 IFT로 시작해 극소량(수백~수천 수준)의 고품질 지시 데이터만으로도 지시 추종 능력을 확보할 수 있으며, 안전성 강화 목표 시 SFT와 CoT를 추가하고, 최종 정렬 단계에서 RLHF를 적용하는 순차적 파이프라인 구조를 참고할 수 있다. 특히 Self-instruct나 기존 NLP 데이터셋 재활용 방식으로 IFT 데이터 수집 비용을 절감할 수 있다.

태그

#RLHF #Language Models #Instruction Fine-Tuning #LLM Training #Dialog Agents

원문 읽기