Meta의 Llama 2를 Amazon SageMaker에 배포하기 위해 60가지 구성을 벤치마킹하여 비용·처리량·지연시간별 최적 배포 전략 제시

Llama 2 on Amazon SageMaker a Benchmark

2023년 9월 26일9분intermediate

AI 요약

Context

Large Language Model(LLM) 배포는 계산 요구사항과 지연시간 요구로 인해 도전적이다. 기업들이 Llama 2를 Amazon SageMaker에서 효율적으로 운영할 최적의 배포 전략을 필요로 한다.

Technical Solution

Llama 2 모델 3가지 크기(7B, 13B, 70B 파라미터) 평가: 실제 운영 환경에서 필요한 모든 모델 사이즈에 대한 성능 데이터 수집
Hugging Face LLM Inference Container(Text Generation Inference 기반)를 사용한 배포: Tensor Parallelism과 동적 배칭 기능으로 고성능 텍스트 생성 지원
4가지 AWS EC2 인스턴스 유형 대상 테스트: g5.2xlarge, g5.12xlarge, g5.48xlarge(NVIDIA A10G GPU), p4d.24xlarge(NVIDIA A100 40GB GPU)
1, 5, 10, 20 동시 요청 시나리오별 성능 측정: 다양한 부하 조건에서의 처리량(tokens/sec) 및 지연시간(ms/token) 수집
GPTQ 4-bit 양자화 적용 여부에 따른 비교: 모델 크기 감소를 통한 하드웨어 요구사항 완화 효과 검증

Impact

최저 비용 배포: Llama 2 13B + GPTQ를 g5.2xlarge에서 실행 시 초당 71.7 토큰 생성, 시간당 $1.52 비용으로 100만 토큰 생성 비용 $5.87
최대 처리량 배포: Llama 2 13B(양자화 없음)을 ml.p4d.12xlarge에서 실행 시 초당 668 토큰 생성
최소 지연시간 배포: Llama 2 7B(양자화 없음)을 ml.g5.12xlarge에서 실행 시 토큰당 16.8ms 지연시간
Llama 2 70B: 최저 비용 배포에서 양자화 적용 시 ml.g5.12xlarge에서 초당 33.3 토큰, 100만 토큰당 $59.08 비용

Key Takeaway

LLM 배포 최적화는 비용, 처리량, 지연시간 중 우선순위에 따라 인스턴스 유형과 양자화 전략을 달리 선택해야 한다. 배포 목표가 명확하지 않으면 시스템 요구사항과 부하 패턴을 반영한 벤치마킹을 먼저 수행해야 한다.

실천 포인트

LLM 서비스 운영팀이 Llama 2를 AWS에 배포할 때, 사용 사례(채팅 앱의 실시간 응답 필요 vs 배치 처리)에 따라 GPTQ 양자화 적용 여부와 인스턴스 선택(g5 vs p4d)을 결정하면, 같은 성능 수준에서 비용을 30~50% 절감하거나 처리량을 2배 이상 높일 수 있다.

태그

#Benchmark #Llama 2 #GPTQ Quantization #Amazon SageMaker #LLM-Deployment

원문 읽기