DiffusionGemma: 4배 빠른 텍스트 생성

256토큰 병렬 생성 기반 DiffusionGemma로 추론 속도 4배 향상

xguru2026년 6월 11일15분advanced

AI 요약

Context

기존 Autoregressive LLM의 순차적 토큰 생성 방식은 로컬 환경 및 저동시성 추론 시 GPU 연산 자원을 충분히 활용하지 못하는 Memory Bandwidth 병목 현상을 유발함. 특히 단일 사용자 환경에서는 하드웨어가 다음 토큰 입력을 대기하는 유휴 시간이 길어 처리 효율이 저하됨.

Technical Solution

텍스트 확산(Text Diffusion) 방식을 도입하여 256개 토큰 블록을 동시에 생성하는 병렬 디코딩 구조 설계
26B MoE(Mixture of Experts) 아키텍처를 채택하여 추론 시 3.8B 파라미터만 활성화하는 연산 효율화 달성
양방향 Attention 적용을 통해 모든 토큰이 상호 참조 가능하게 하여 코드 채우기 등 비선형 구조 작업 최적화
무작위 플레이스홀더에서 시작해 반복적 자체 수정(Iterative Self-Correction) 과정을 거쳐 최종 텍스트로 수렴하는 프로세스 구축
NVFP4 4비트 부동소수점 네이티브 지원을 통한 연산 처리량 가속 및 정확도 손실 최소화

실천 포인트

- 실시간 인터랙션이 중요한 로컬 AI 에이전트 설계 시 Autoregressive 모델 대신 Diffusion 기반 모델 검토 - 비선형적 데이터(코드, 수학 그래프, 화학 서열) 생성 작업에 양방향 Attention 구조 적용 고려 - 고QPS 클라우드 환경보다는 저배치 로컬 추론 환경에서 병렬 디코딩의 비용 효율성 검증

태그

#Text Diffusion #VRAM Optimization #MoE #Bidirectional Attention #Parallel Decoding

원문 읽기