Hugging Face의 TRL과 PEFT 통합으로 20B 파라미터 LLM을 24GB 소비자용 GPU에서 RLHF 파인튜닝 가능하게 구현

Fine-tuning 20B LLMs with RLHF on a 24GB consumer GPU

2023년 3월 9일10분intermediate

AI 요약

Context

20B 이상 규모의 사전학습 LLM은 완전 정밀도(float32)로 로드할 때 80GB 이상의 GPU 메모리가 필요하며, RLHF 학습은 원본 모델과 참조 모델 2개 사본을 동시에 유지해야 하므로 메모리 압박이 더욱 심해 단일 GPU에서의 학습이 불가능했다.

Technical Solution

PEFT(Parameter-Efficient Fine-Tuning) 도입: Low-Rank Adapter(LoRA)를 사용해 원본 모델은 동결하고 소수의 학습 가능한 파라미터만 추가
양자화(Quantization) 적용: int8과 bfloat16 혼합 정밀도 사용으로 메모리 비용을 float32 대비 75~87.5% 감소
TRL 라이브러리 확장: PPO 알고리즘 구현 시 PEFT와 bitsandbytes 통합으로 Data Parallelism만으로 단일 GPU 학습 지원
모델 어댑터 병합: 16비트 부동소수점으로 사전학습 모델과 LoRA 어댑터를 로드한 후 가중치를 합산해 RLHF 파인튜닝용 기초 모델 생성
Hugging Face의 accelerate 라이브러리 활용: 분산 훈련 추상화로 단일 또는 다중 GPU 실행 지원

Impact

GPT-NeoX-20B 모델(bfloat16에서 40GB)을 24GB 소비자용 GPU(예: RTX 4090)에서 학습 가능함을 실증적으로 시연.

Key Takeaway

메모리 제약 환경에서 PEFT와 양자화 조합은 모델 용량의 75% 이상 감소 없이도 대규모 LLM의 RL 기반 파인튜닝을 실현할 수 있으며, 이는 고사양 인프라 접근성이 제한된 개발자들의 선택지를 획기적으로 확대한다.

실천 포인트

20B 규모 이상의 오픈소스 LLM을 파인튜닝해야 하는 팀에서 24GB GPU 메모리의 소비자용 하드웨어를 확보한 경우, TRL + PEFT + bitsandbytes 스택을 도입하면 원래 필요했던 고가의 GPU(A100/H100) 없이도 RLHF 기반 모델 최적화를 수행할 수 있다.

태그

#Memory-Optimization #RLHF #LLM #LoRA

원문 읽기