피드로 돌아가기
I-DLM - 내성 확산 언어 모델 (Introspective Diffusion Language Models)
GeekNewsGeekNews
AI/ML

I-DLM - 내성 확산 언어 모델 (Introspective Diffusion Language Models)

I-DLM: Parallel Decoding 기반 추론 속도 2배 향상 및 품질 최적화

neo2026년 4월 16일4advanced

Context

기존 Autoregressive(AR) 모델의 순차적 토큰 생성 방식으로 인한 추론 지연 시간 발생. Parallel Decoding 시도 시 발생하는 출력 품질 저하와 Base 모델 분포와의 정렬 불일치 문제 해결 필요.

Technical Solution

  • Qwen AR 모델을 변형하여 여러 MASK 토큰을 동시에 예측하는 Parallel Generation 구조 설계
  • Matrix-Vector 연산을 Matrix-Matrix 연산으로 전환하여 메모리 대역폭 효율 최적화
  • Lossless LoRA 보조 모드를 도입하여 Base 모델의 분포에 맞춘 출력 정렬 및 품질 유지
  • k-token 단위의 블록 기반 생성 방식을 통한 추론 속도와 품질 간의 Trade-off 조절
  • 생성된 출력을 다시 입력으로 사용하는 Introspection 프로세스를 통한 반복적 추론 및 자기 수정 구조 구현

Impact

  • 블록 단위 생성 도입을 통한 추론 속도 최대 2배 향상
  • k=8 설정 시 품질 저하 발생 확인에 따른 최적 예측 토큰 수(k=4) 도출

1. 추론 속도 향상을 위해 Multi-token Prediction 기반의 Self-speculative Decoding 도입 검토

2. Parallel Generation 시 품질 저하를 방지하기 위한 LoRA 기반의 분포 정렬 기법 적용

3. Matrix-Matrix 연산 최적화를 통한 메모리 효율성 확보 및 배치 사이즈 조정

4. 생성 품질 유지를 위한 최적의 예측 토큰 수(k) 임계값 벤치마킹 수행

원문 읽기