Hugging Face TGI가 Multi-LoRA 서빙 기능으로 단일 배포에서 30개 모델을 동시 제공 가능하게 함

TGI Multi-LoRA: Deploy Once, Serve 30 Models

2024년 7월 18일7분intermediate

AI 요약

Context

조직이 도메인별 특화 모델을 구축하기 위해 파인튜닝으로 다수의 LLM을 개발하면서, 모델당 배포 구성·운영 비용·인프라 관리 복잡도가 선형으로 증가하는 문제가 발생했다.

Technical Solution

LoRA 어댑터 활용: 원본 가중치는 고정하고 A, B 작은 행렬만 파인튜닝하여 저장 오버헤드를 1% 수준으로 제한
동적 LoRA 선택: 사용자 요청에 LoRA ID를 포함시켜 런타임에 적절한 어댑터만 로드하는 이종 배치 처리
단일 기본 모델 배포: mistralai/Mistral-7B-v0.1 같은 기본 모델 1개만 배포하고 위에 다수 어댑터 적재
Punica·LoRAX·S-LoRA 최적화 커널 통합: 다중 LoRA 추론을 위한 전문 연산 최적화
Hub에서 어댑터만 푸시·로드: 전체 병합 모델이 아닌 어댑터 가중치만 배포하여 배포 크기 최소화

Impact

LoRA 어댑터 저장 크기: predibase/magicoder 13.6MB (mistralai/Mistral-7B-v0.1 대비 1/1000 이하)
30개 어댑터 로드 시 VRAM 증가율: 3%

Key Takeaway

기본 모델 1개에 파인튜닝된 소형 어댑터를 동적으로 적재하는 Multi-LoRA 패턴을 통해, 배포 단위는 1개로 유지하면서 운영하는 모델 수를 선형 확장할 수 있으며, 이는 특화 데이터를 보유한 조직의 성능·비용·독립성·보안을 동시에 달성하는 설계 원칙이다.

실천 포인트

다수의 도메인 특화 LLM을 운영하는 ML 엔지니어는 각 태스크별로 별도 배포하는 대신, 단일 기본 모델(예: Mistral-7B) 위에 LoRA 어댑터를 쌓고 TGI의 Multi-LoRA 서빙을 적용하면 배포 오버헤드는 1/30 이상 감소시키면서도 30개 모델의 전체 성능·격리·독립성을 유지할 수 있다.

태그

#Multi-model Serving #Parameter-Efficient Fine-Tuning #LLM #LoRA

원문 읽기