피드로 돌아가기
XLSCOUT Unveils ParaEmbed 2.0: a Powerful Embedding Model Tailored for Patents and IP with Expert Support from Hugging Face
Hugging Face BlogHugging Face Blog
AI/ML

XLSCOUT가 Hugging Face Expert Support Program과 협력하여 오픈소스 모델을 특허 데이터로 파인튜닝한 ParaEmbed 2.0 개발으로 정확도 23% 향상 및 임베딩 처리 속도 9배 증대

XLSCOUT Unveils ParaEmbed 2.0: a Powerful Embedding Model Tailored for Patents and IP with Expert Support from Hugging Face

2024년 6월 25일8intermediate

Context

XLSCOUT는 GPT-4, text-embedding-ada-002 등 폐쇄형 AI 모델을 사용할 때 특허 문서의 복잡한 기술 용어, 맥락, 관계를 정확히 포착하지 못하는 문제에 직면했다. 특허 분석에 최적화된 임베딩 모델의 부재로 인해 선행기술 매핑과 특허 유효성 검증 정확도가 제한되었다.

Technical Solution

  • 오픈소스 모델 도입: GPT-4, text-embedding-ada-002 대신 BGE-base-v1.5, Llama 2 70B, Falcon 40B, Mixtral 8x7B 선택
  • 특허 데이터 파인튜닝: 특허 전문가가 큐레이션한 멀티도메인 고품질 특허 데이터로 임베딩 모델 파인튜닝
  • TorchServe 인프라 구축: Google Cloud Platform에서 Distributed Data Parallel 방식의 커스텀 TorchServe 추론 서버 구현 및 ONNX 최적화 적용
  • Hugging Face Inference Endpoints 도입: 내장된 로드 밸런싱을 포함한 Text Embedding Inference 기반 고처리량 프로덕션 서빙
  • LLM 프롬프트 엔지니어링 및 파인튜닝: Meta와 Mistral 모델에 인스트럭션 데이터 포맷 적용 및 파인튜닝으로 특허 드래프팅 정확도 개선

Impact

  • 정확도 23% 향상: ParaEmbed 2.0이 ParaEmbed 1.0 대비 23% 향상된 선행기술 매핑 정확도 달성
  • 임베딩 처리 속도 9배 증가: ONNX 최적화 적용 TorchServe 구현으로 초당 300개 임베딩 처리 → Hugging Face Inference Endpoints 도입 후 초당 2700개 임베딩 처리

Key Takeaway

폐쇄형 대규모 모델 대신 오픈소스 기반 모델을 도메인 특화 데이터로 파인튜닝하고 고성능 인프라와 조합하면, 전문 영역에서 기성품 모델 이상의 정확도와 처리량을 동시에 달성할 수 있다. 특히 규제되는 산업(특허, 법률 등)에서는 해석 가능성과 맞춤형 최적화가 폐쇄형 API 모델보다 경쟁력 있는 선택이 될 수 있다.


특허, 법률, 의학 등 도메인 특화 데이터가 풍부한 조직에서는 Hugging Face의 오픈소스 모델(BGE, Llama, Mistral 등)을 내부 전문가 큐레이션 데이터로 파인튜닝한 후 Text Embedding Inference나 TorchServe로 서빙하면, 범용 API 모델의 2~3배 정확도 향상과 함께 독점적 경쟁 우위를 확보할 수 있다.

원문 읽기