피드로 돌아가기
Dev.toAI/ML
원문 읽기
LoRA 도입을 통한 LLM 학습 파라미터 10,000배 감축 및 효율 극대화
84. Fine-Tuning LLMs: Teaching Giants New Tricks
AI 요약
Context
GPT-3와 같은 초거대 LLM의 Full Fine-tuning 시 발생하는 막대한 GPU 메모리 점유와 비용 문제 분석. 모든 파라미터를 업데이트하는 구조로 인해 일반적인 컴퓨팅 환경에서 모델 학습이 불가능한 제약 사항 존재.
Technical Solution
- 기존 Weight Matrix를 Frozen 상태로 유지하여 불필요한 Gradient 계산 제거
- Low-Rank Adaptation을 통한 저차원 행렬 A, B를 추가하여 학습 가능한 파라미터 최소화
- W' = W + (B @ A) * scaling 수식을 적용한 가산적 가중치 업데이트 구조 설계
- Matrix B를 Zero로 초기화하여 학습 초기 단계에서 Base 모델의 출력값 유지
- PEFT 라이브러리를 활용한 특정 모듈(q_lin, v_lin) 타겟팅으로 학습 효율 최적화
- 학습 완료 후 adapter merging을 통해 추론 시 오버헤드 제거 및 속도 개선
Impact
- 학습 대상 파라미터 수를 전체의 0.1% 수준으로 절감
- Full Fine-tuning 대비 학습 비용 10,000배 감소
- 소비자용 단일 GPU만으로 LLM Fine-tuning 가능한 환경 구현
- Full Fine-tuning에 근접한 타겟 태스크 성능 확보
Key Takeaway
전체 가중치를 수정하는 대신 저차원 근사 행렬을 학습시키는 전략으로 연산 복잡도를 획기적으로 낮추면서도 도메인 특화 성능을 유지하는 효율적 모델 적응 패턴 도출
실천 포인트
1. 메모리 제약 시 QLoRA(4-bit quantization) 적용 검토
2. Rank(r)와 Alpha 값의 상관관계를 분석하여 최적의 하이퍼파라미터 설정
3. 배포 단계에서 merge_and_unload()를 호출하여 추론 지연 시간 최소화