피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Intel이 Gaudi 2 가속기와 Xeon CPU를 조합하여 엔터프라이즈 RAG 애플리케이션의 비용 효율성 달성
Building Cost-Efficient Enterprise RAG applications with Intel Gaudi 2 and Intel Xeon
AI 요약
Context
RAG(Retrieval-augmented generation) 애플리케이션은 대규모 언어 모델의 성능과 정확성, 보안 프라이버시 간의 균형을 맞춰야 한다. 엔터프라이즈 환경에서 도메인별 지식과 학습된 모델 지식을 분리하며 동시에 비용 효율적으로 배포할 수 있는 인프라 구성이 필요했다.
Technical Solution
- 임베딩 모델을 Intel Granite Rapids CPU에서 실행: BAAI/bge-base-en-v1.5 모델을 사용하며 AMX-FP16 명령어 집합으로 2~3배 성능 향상 달성
- LLM을 Intel Gaudi 2 가속기에서 실행: Hugging Face Text Generation Inference(TGI) 서버를 통해 MPT, Llama, Mistral 같은 오픈소스 모델 배포
- LangChain의 rag-redis 템플릿으로 RAG 파이프라인 구성: 임베딩 모델, Redis 벡터 데이터베이스, 프롬프트 템플릿을 Chain API로 연결
- Redis를 벡터 데이터베이스로 사용: PDF 문서를 청크로 분할하여 저장하고 MMR(최대 한계 관련성) 검색으로 컨텍스트 검색
- Optimum Habana 라이브러리로 Hugging Face 모델과 Gaudi 간 통합: 단일 및 다중 카드 설정에서 모델 로딩, 학습, 추론 수행
- Docker 환경에서 개발 및 배포: 사전 구축된 이미지를 사용하여 Gaudi 2 위의 TGI 서버 실행
Impact
- Intel Granite Rapids CPU에서 혼합 AI 워크로드의 성능을 2~3배 향상
- Gaudi 2에서 최대 배치 크기 22(prefill_batch_bucket_size 4), 최대 배치 토큰 32,256으로 설정하여 높은 처리량 달성
- Llama2 70B 모델을 4개 Gaudi 2 카드에 배포(8개 카드로 정규화)
- 16개 동시 클라이언트에 대해 최대 입력 길이 1,024, 최대 출력 길이 128 토큰으로 RAG 쿼리 처리
Key Takeaway
엔터프라이즈 RAG 애플리케이션은 임베딩과 LLM 추론을 각각 최적화된 하드웨어(CPU vs 가속기)에 분리 배치하고, LangChain 같은 표준 프레임워크와 벡터 데이터베이스를 조합하면 비용 효율적이면서도 높은 성능의 시스템을 구축할 수 있다.
실천 포인트
엔터프라이즈 환경에서 RAG 시스템을 구축할 때, 임베딩 모델 실행을 CPU(특히 AMX-FP16을 지원하는 Xeon)에, LLM 추론을 전문 AI 가속기(Gaudi 2)에 배치하고, Redis 벡터 데이터베이스와 LangChain의 Chain API를 사용하면 하드웨어 비용을 최적화하면서도 높은 처리량과 낮은 레이턴시를 동시에 달성할 수 있다.