Hugging Face가 Intel Gaudi 하드웨어를 Text Generation Inference에 네이티브 통합으로 별도 포크 제거 및 최신 기능 동시 지원

🚀 Accelerating LLM Inference with TGI on Intel Gaudi

2025년 3월 28일6분intermediate

AI 요약

Context

Text Generation Inference는 Intel Gaudi 하드웨어 지원을 위해 별도의 포크 저장소(tgi-gaudi)를 유지해야 했으며, 이로 인해 사용자 입장에서 맞춤 저장소를 관리해야 하는 불편함과 최신 TGI 기능을 Gaudi에서 신속하게 지원할 수 없는 한계가 발생했다.

Technical Solution

Gaudi 지원을 TGI 메인 코드베이스(PR #3091)에 직접 통합: 별도 포크 제거 및 단일 저장소에서 관리
새로운 TGI 다중 백엔드 아키텍처 도입: 하드웨어 다양성 지원 가능하도록 모듈화
15개 이상의 LLM 모델 최적화: Llama 3.1(8B, 70B), Mixtral(8x7B), Mistral(7B), Falcon(180B) 등 단일 및 멀티카드 구성 모두 지원
Intel Gaudi의 전체 하드웨어 라인 지원: Gaudi 1, Gaudi 2, Gaudi 3 포함
FP8 양자화 기능 추가: Intel Neural Compressor(INC)를 통한 추가 성능 최적화 제공

Impact

아티클에 정량적 성능 수치(지연시간, 처리량, 비용 절감율 등)는 명시되지 않음.

Key Takeaway

멀티 백엔드 아키텍처로 설계하면 새로운 가속기 하드웨어 추가 시 기존 기능과 사용자 경험을 유지하면서 빠르게 통합할 수 있다. 포크 유지 방식에서 단일 코드베이스 구조로 전환하면 기능 업데이트 속도와 사용자 접근성이 동시에 개선된다.

실천 포인트

LLM 추론 인프라를 구축하는 팀은 Intel Gaudi 하드웨어를 사용하려 할 때 TGI 공식 Docker 이미지(ghcr.io/huggingface/text-generation-inference:

2.1-gaudi)를 Habana 런타임으로 실행하면 별도 커스터마이징 없이 Llama

3.1, Mixtral, Mistral 등 사전 최적화된 모델을 즉시 배포할 수 있다. 또한 멀티카드 인퍼런스 샤딩과 FP8 양자화를 기본 지원받으므로 GPU 기반 배포와 동일한 수준의 프로덕션 기능을 활용 가능하다.

태그

#Model optimization #Text Generation Inference #Hardware-integration #Intel Gaudi #LLM

원문 읽기