Intel Gaudi에서 Speculative Sampling 기반 Assisted Generation을 구현해 텍스트 생성 속도 약 2배 향상

Faster assisted generation support for Intel Gaudi

2024년 6월 4일7분intermediate

AI 요약

Context

모델 크기가증가하면서 생성형 AI 추론에 필요한 리소스가 급증하고 있으며, 이로 인해 생성당 비용, 전력 소비, 레이턴시가 증가하고 있다. Intel Gaudi 프로세서에서 텍스트 생성 최적화 기법의 지원이 부족했다.

Speculative Sampling 알고리즘을 Intel Gaudi에 최적화: 드래프트 모델이 K개 토큰 생성 → 타겟 모델이 평가 → 거부 시 타겟 모델이 다음 토큰 생성하는 방식으로 구현
KV 캐시 활용: 드래프트 모델과 타겟 모델이 각각 독립적인 KV 캐시를 유지하도록 구성해 서로 다른 크기의 모델을 동시에 최적화
양자화 모델과 함께 적용: 양자화된 모델에서 Speculative Sampling을 함께 사용해 메모리 및 계산 효율성 극대화
Hugging Face Transformers .generate() 메서드에 --assistant_model 파라미터 추가: 드래프트 모델 지정을 통해 사용자가 간단하게 Assisted Generation 활성화 가능
Optimum Habana 라이브러리에 통합: Transformers, Diffusers 등 Hugging Face 라이브러리를 Intel Gaudi에 최적화된 버전으로 제공

드래프트-타겟 모델 쌍을 활용한 Speculative Sampling은 각 모델의 독립적 KV 캐시 관리와 차등 최적화 전략으로 하드웨어 활용도를 극대화할 수 있으며, 타겟 분포 복구 보장으로 샘플링 품질 유지가 가능하다.

실천 포인트

Intel Gaudi에서 대규모 언어 모델 추론을 수행하는 팀에서 Assisted Generation을 `--assistant_model` 파라미터로 활성화하면 동일한 샘플링 품질을 유지하면서 텍스트 생성 지연 시간을 약 50% 단축할 수 있다.

태그