피드로 돌아가기
Hugging Face BlogBackend
원문 읽기
Hugging Face가 Text Generation Inference를 AWS Inferentia2에 통합해 GPU 대비 비용 효율적인 LLM 프로덕션 배포 환경 제공
Hugging Face Text Generation Inference available for AWS Inferentia2
AI 요약
Context
Large Language Model을 프로덕션 환경에서 배포할 때 GPU 기반 추론 인프라의 높은 비용이 장애물이었다. AWS 고객들은 GPU 없이도 고성능 LLM 추론을 수행할 수 있는 대안이 필요했다.
Technical Solution
- Text Generation Inference (TGI)를 AWS Inferentia2 칩셋과 Amazon SageMaker에 통합: Tensor Parallelism과 continuous batching을 통해 Llama, Mistral 등 주요 오픈소스 LLM 지원
- Neuron 모델 캐시 도입: 모델 아키텍처(Mistral), 크기(7B), Neuron 버전(2.16), Inferentia 코어 수(2), 배치 크기(2), 시퀀스 길이(2048) 조합으로 사전 컴파일된 모델 제공하여 자체 컴파일 작업 제거
- Hugging Face TGI Neuronx DLC(Deep Learning Container) 제공:
get_huggingface_llm_image_uri()메서드를 통해 SageMaker SDK에서 직접 컨테이너 이미지 접근 가능 - 동적 형태 미지원에 대한 정적 설정 방식 표준화: 배치 크기와 시퀀스 길이를 사전에 고정하고 캐시된 설정으로 제공
- OpenAI 형식 메시지 호환성 제공:
tokenizer.apply_chat_template()메서드로 표준 메시지 형식을 모델별 프롬프트 구조로 자동 변환
Key Takeaway
GPU의 고비용 문제를 해결하기 위해 특화된 추론 칩(Inferentia2)에 사전 최적화된 소프트웨어 스택(TGI)을 결합하면, 개발자는 컴파일 및 최적화 작업을 제거하고 SageMaker의 통합 배포 경험으로 LLM 프로덕션 접근성을 크게 개선할 수 있다.
실천 포인트
AWS에서 LLM 프로덕션 서빙이 필요한 팀에서 Inferentia2 기반의 TGI를 선택하면, GPU 대비 인프라 비용을 절감하면서도 Grammarly, Uber, Deutsche Telekom이 검증한 Tensor Parallelism과 continuous batching을 통해 높은 동시성과 낮은 레이턴시 추론을 달성할 수 있다.