Hugging Face와 Dell이 Dell Enterprise Hub를 출시해 온프레미스에서 오픈 모델 학습 및 배포에 소요되는 엔지니어링 작업을 수 주에서 수 분으로 단축

Build AI on premise with Dell Enterprise Hub

2024년 5월 21일6분intermediate

AI 요약

Context

대규모 언어 모델(LLM)을 온프레미스 인프라에서 운영하려면 컨테이너, 병렬 처리, 양자화, 메모리 부족 오류 등을 다루느라 수 주의 시행착오가 필요했다. 엔터프라이즈는 데이터 보안, 규정 준수, 개인정보 보호를 위해 오픈 모델을 자체 환경에서 실행해야 하는데, 이 과정이 매우 복잡했다.

Technical Solution

Dell Enterprise Hub 구축: Hugging Face 플랫폼 위에서 엔터프라이즈를 위해 설계된 새로운 인터페이스 제공 (dell.huggingface.co)
사전 최적화된 모델 카탈로그: Llama 3, Mixtral, Gemma 등 주요 오픈 모델을 라이선스·모델 크기별로 필터링 가능하도록 큐레이션
원클릭 배포 자동화: 지원하는 Dell 플랫폼 선택 → GPU 수 지정 → 스크립트 실행으로 모델을 API 엔드포인트로 배포
온프레미스 파인튜닝 지원: CSV/JSONL 형식 학습 데이터셋을 로컬 경로에서 읽어 모델 가중치 업데이트 후 로컬 환경에 저장
Hugging Face 계정 권한 통합: 사용자의 Hugging Face 계정 권한이 Dell Enterprise Hub로 자동 이전되어 재인증 불필요
Dell 하드웨어 최적화: NVIDIA, AMD, Intel Gaudi 가속기 기반 Dell 플랫폼 각각에 대해 배포 및 학습 컨테이너 최적화 및 정기적 검증
OpenAI 호환 API: 배포된 모델이 OpenAI 호환 Messages API로 응답 가능하도록 구현

Key Takeaway

엔터프라이즈 온프레미스 AI 운영에서는 하드웨어 추상화와 자동화된 배포 파이프라인을 통해 인프라 복잡성을 숨기고, 사용자가 모델 선택과 데이터 제공에만 집중하도록 하는 것이 채택률을 극대화한다.

실천 포인트

온프레미스 LLM 배포가 필요한 엔터프라이즈 팀은 Dell Enterprise Hub와 같이 대상 하드웨어(NVIDIA/AMD/Intel Gaudi)에 사전 최적화된 배포 템플릿을 제공하면, 개발자가 컨테이너·병렬 처리·메모리 최적화에 직접 투자하는 수 주의 작업을 제거할 수 있다.

태그

#Fine-Tuning #Enterprise #On-Premise #Model Deployment #LLM

원문 읽기