Hugging Face가 Text Generation Inference(TGI)에 다중 백엔드 아키텍처를 도입해 vLLM, TensorRT-LLM, llama.cpp 등 다양한 추론 엔진을 단일 프론트엔드로 통합

Introducing multi-backends (TRT-LLM, vLLM) support for Text Generation Inference

2025년 1월 16일7분intermediate

AI 요약

Context

다양한 추론 솔루션(vLLM, TensorRT-LLM, llama.cpp, SGLang 등)이 생겨나면서 LLM 배포 생태계가 분산되었다. 모델, 하드웨어, 사용 사례별로 최적 성능을 위해 특정 백엔드가 필요하지만, 각 백엔드를 정확히 설정하고 라이선스를 관리하며 기존 인프라에 통합하기가 어려웠다.

Technical Solution

Rust 기반 Backend 트레이트(trait) 설계: HTTP 서버와 스케줄러를 분리하여 새로운 추론 엔진 통합 가능하도록 모듈화
Rust 타입 시스템 활용으로 HTTP 레이어와 스케줄러에서 메모리 안전성 확보: GIL(Global Interpreter Lock) 우회로 동시성 극대화
TGI 프론트엔드 통합: vLLM, TensorRT-LLM, llama.cpp, AWS Neuron, Google TPU 백엔드를 단일 인터페이스로 라우팅
2025년 로드맵: TensorRT-LLM 백엔드(Q1 이상), vLLM 백엔드(Q1 2025), llama.cpp CPU 백엔드, AWS Inferentia 2/Trainium 2 지원, Google Jetstream & TPU 지원
Inference Endpoints 통합: 다양한 하드웨어에서 TGI 백엔드를 직접 배포 가능하도록 계획

Key Takeaway

모놀리식 추론 엔진 대신 백엔드 추상화 계층(Backend trait)을 먼저 설계하면, 서로 다른 최적화 엔진들을 비용 있게 통합할 수 있다. Rust의 타입 시스템과 메모리 안전성은 Python 기반 모델링 계층과의 경계에서 특히 효과적이다.

실천 포인트

LLM 서빙 플랫폼을 운영하는 팀에서 Rust로 작성된 HTTP/스케줄링 계층과 Backend 트레이트를 먼저 분리하면, Python 기반 추론 엔진(vLLM, TensorRT-LLM 등)을 플러그인처럼 교체할 수 있어 하드웨어 변경이나 성능 최적화 시 구현 비용을 크게 줄일 수 있다.

태그

#Text Generation Inference #Rust #Multi-backend Architecture #TensorRT-LLM #vLLM

원문 읽기