피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face Transformers가 300+ 모델 아키텍처를 표준화해 vLLM, SGLang, TGI 등 다운스트림 라이브러리에 자동으로 호환되도록 구성
The Transformers Library: standardizing model definitions
AI 요약
Context
Transformers는 2019년 이후 300+ 모델 아키텍처를 지원하면서 NLP에서 Audio, Computer Vision으로 확대되었으나, 모델 기여 시 6000줄 이상의 코드와 20개 이상의 파일 변경이 필요했으며, 각 다운스트림 라이브러리(vLLM, SGLang, TGI, llama.cpp, MLX)에 별도 통합 작업이 필수였다.
Technical Solution
- 모델 정의 코드 단순화: KV cache, Attention 함수, 커널 최적화를 위한 명확한 단일 API 제공
- 중복 컴포넌트 제거: 느린 토크나이저 deprecated 및 빠른 벡터화된 비전 프로세서로 통일
- 모듈식 모델 정의 강화: 새 모델 추가 시 최소한의 코드 변경으로 구성 가능하도록 개선
- vLLM 백엔드 통합: Transformers 모델 추가 시 자동으로 vLLM의 추론 최적화, 특화 커널, 동적 배칭 활용 가능
- 상호운용성 강화: GGUF 파일을 Transformers에서 로드 가능하도록, safetensors 파일이 MLX와 호환되도록 구현
Key Takeaway
모델 정의를 중앙 표준화하면 단일 기여로 모든 다운스트림 도구에서 자동 지원되며, 생태계 단편화 위험을 줄이고 사용자는 학습(Unsloth), 추론(SGLang), 로컬 배포(llama.cpp) 도구들의 완벽한 상호운용성을 얻을 수 있다.
실천 포인트
LLM/VLM 기반 프로덕션 서비스를 구축하는 엔지니어는 Transformers를 단일 모델 정의 소스로 삼으면, vLLM이나 SGLang 같은 추론 엔진에 모델을 자동 등록할 수 있으므로 각 프레임워크별 별도 포팅 작업을 제거할 수 있다.