Intel Labs와 Hugging Face가 동적 추측 디코딩으로 LLM 텍스트 생성 속도 최대 2.7배 가속화

Faster Assisted Generation with Dynamic Speculation

2024년 10월 8일10분intermediate

AI 요약

Context

기존 추측 디코딩은 정적 추측 길이(speculation lookahead) 값을 사용하거나 휴리스틱 기반 조정을 했으나, 두 방식 모두 반복(iteration)마다 최적이 아니었다. MBPP 코드 생성 예제에서 정적 값 5를 사용할 때 타겟 모델은 38번, 드래프트 모델은 192번 순전파를 수행해야 했다.

Technical Solution

드래프트 모델의 신뢰도 기반 동적 조정: 각 토큰 생성 후 소프트맥스 로짓의 confidence 값을 계산하고 assistant_confidence_threshold 이하면 생성 중단
오라클 기준선 수립: 드래프트·타겟 모델의 토큰 불일치 지점을 찾아 각 반복에서 최대 수용 가능한 토큰 수를 식별
정적(constant) 방식과 휴리스틱 방식 비교: 기존 두 방식은 num_assistant_tokens_schedule을 각각 'constant', 'heuristic'으로 설정하며, 동적 방식은 신뢰도 기반 의사결정으로 작동
Transformers 4.45.0 이상에 기본 포함: 라이브러리 차원의 기본 동작 모드로 통합

Impact

Llama3.2-1B 드래프트 모델로 Llama3.1-8B 타겟 모델 사용 시 최대 1.52배 속도향상 달성
휴리스틱 방식은 동일 구성에서 유의미한 속도향상 없음
codegen-6B-mono 사용 시 휴리스틱 방식은 오히려 성능 저하, 동적 방식은 속도향상 관찰
MBPP 예제에서 타겟 순전파 27회(정적 38회 대비), 드래프트 순전파 129회(정적 192회 대비) 감소

Key Takeaway

텍스트 생성에서 정적 매개변수보다 모델의 예측 신뢰도를 실시간 신호로 활용한 동적 조정이 모든 작업·모델 조합에서 일관되게 우수한 성능을 낸다는 점은 LLM 추론 최적화에서 적응형 알고리즘의 중요성을 시사한다.

실천 포인트

LLM 서빙 환경에서 보조 모델을 활용한 추측 디코딩을 적용할 때, assistant_confidence_threshold 매개변수를 0보다 큰 값으로 설정하면 드래프트 모델의 소프트맥스 신뢰도에 따라 동적으로 검증 단계를 트리거함으로써 정적 토큰 수 설정 대비 타겟 모델의 순전파 호출 횟수를 20~30% 감소시킬 수 있다.

태그

#Performance Optimization #LLM-Inference #Speculative Decoding #Text Generation

원문 읽기