피드로 돌아가기
GeekNewsAI/ML
원문 읽기
I-DLM - 내성 확산 언어 모델 (Introspective Diffusion Language Models)
I-DLM: Parallel Decoding 기반 추론 속도 2배 향상 및 품질 최적화
AI 요약
Context
기존 Autoregressive(AR) 모델의 순차적 토큰 생성 방식으로 인한 추론 지연 시간 발생. Parallel Decoding 시도 시 발생하는 출력 품질 저하와 Base 모델 분포와의 정렬 불일치 문제 해결 필요.
Technical Solution
- Qwen AR 모델을 변형하여 여러 MASK 토큰을 동시에 예측하는 Parallel Generation 구조 설계
- Matrix-Vector 연산을 Matrix-Matrix 연산으로 전환하여 메모리 대역폭 효율 최적화
- Lossless LoRA 보조 모드를 도입하여 Base 모델의 분포에 맞춘 출력 정렬 및 품질 유지
- k-token 단위의 블록 기반 생성 방식을 통한 추론 속도와 품질 간의 Trade-off 조절
- 생성된 출력을 다시 입력으로 사용하는 Introspection 프로세스를 통한 반복적 추론 및 자기 수정 구조 구현
Impact
- 블록 단위 생성 도입을 통한 추론 속도 최대 2배 향상
- k=8 설정 시 품질 저하 발생 확인에 따른 최적 예측 토큰 수(k=4) 도출
실천 포인트
1. 추론 속도 향상을 위해 Multi-token Prediction 기반의 Self-speculative Decoding 도입 검토
2. Parallel Generation 시 품질 저하를 방지하기 위한 LoRA 기반의 분포 정렬 기법 적용
3. Matrix-Matrix 연산 최적화를 통한 메모리 효율성 확보 및 배치 사이즈 조정
4. 생성 품질 유지를 위한 최적의 예측 토큰 수(k) 임계값 벤치마킹 수행