Ryght가 Hugging Face의 TGI와 TEI를 도입해 의료 AI 플랫폼에서 플러그인 가능한 LLM 아키텍처와 다중 고객 동시 요청 처리 구현

Ryght’s Journey to Empower Healthcare and Life Sciences with Expert Support from Hugging Face

2024년 4월 16일6분intermediate

AI 요약

Context

의료 및 생명과학 회사들은 랩 데이터, 전자의료기록(EMR), 유전체학, 청구 데이터 등 다양한 출처의 데이터를 보유하고 있으나 분석 방법이 구식이어서 간단한 쿼리부터 ML 모델 개발까지 대규모 팀이 필요한 상황이었다. 빠르게 변화하는 AI 생태계에서 팀의 최신 기술 학습, 비용 효율적인 ML 접근 방식 선택, 보안과 유연성을 갖춘 성능 좋은 솔루션 개발이 동시에 필요했다.

Technical Solution

Text Generation Inference(TGI) 도입: 의료 분야 특화 LLM을 평가하고 통합할 수 있는 플러그인 가능한 LLM 아키텍처 구현
Text Embeddings Inference(TEI) 통합: 독점 임베딩 모델 대신 오픈소스 임베딩 모델 서빙으로 추론 속도 향상
고객별 추론 엔드포인트 연결: 각 LLM을 고객별 Inference Endpoints에 등록하고 링크해 LLM 간 전환 가능성 제공
세분화된 모델 서빙 아키텍처: 배칭(batching), 큐잉(queuing), GPU 분산 처리를 통해 다중 고객의 동시 요청 처리 및 저 지연시간 유지
생명과학 도메인 맞춤형 미세조정 모델 서빙: 오픈소스 임베딩 모델을 생명과학 특화 요구사항에 맞게 미세조정해 서빙

Key Takeaway

엔터프라이즈 의료 AI 플랫폼 설계 시 특정 LLM에 의존하지 않는 플러그인 아키텍처를 통해 새로운 의료용 LLM 출현에 빠르게 대응할 수 있으며, TGI와 TEI 같은 최적화된 추론 서빙 도구를 활용하면 다중 고객의 고 동시성 요청을 낮은 지연시간으로 처리할 수 있다.

실천 포인트

생명과학 및 의료 데이터를 다루는 SaaS 플랫폼 개발 시 Hugging Face의 TGI와 TEI를 채택하고 고객별 독립적인 추론 엔드포인트를 구성하면, 새로운 의료용 오픈소스 모델이 나올 때마다 빠르게 평가·통합할 수 있으면서도 프로프라이터리 모델의 레이트 제한 걱정 없이 도메인 맞춤형 임베딩을 서빙할 수 있다.

태그

#Text Generation Inference #LLM #Text Embeddings Inference #Healthcare AI #Hugging Face

원문 읽기