피드로 돌아가기
GeekNewsAI/ML
원문 읽기
DiffusionGemma: 4배 빠른 텍스트 생성
256토큰 병렬 생성 기반 DiffusionGemma로 추론 속도 4배 향상
AI 요약
Context
기존 Autoregressive LLM의 순차적 토큰 생성 방식은 로컬 환경 및 저동시성 추론 시 GPU 연산 자원을 충분히 활용하지 못하는 Memory Bandwidth 병목 현상을 유발함. 특히 단일 사용자 환경에서는 하드웨어가 다음 토큰 입력을 대기하는 유휴 시간이 길어 처리 효율이 저하됨.
Technical Solution
- 텍스트 확산(Text Diffusion) 방식을 도입하여 256개 토큰 블록을 동시에 생성하는 병렬 디코딩 구조 설계
- 26B MoE(Mixture of Experts) 아키텍처를 채택하여 추론 시 3.8B 파라미터만 활성화하는 연산 효율화 달성
- 양방향 Attention 적용을 통해 모든 토큰이 상호 참조 가능하게 하여 코드 채우기 등 비선형 구조 작업 최적화
- 무작위 플레이스홀더에서 시작해 반복적 자체 수정(Iterative Self-Correction) 과정을 거쳐 최종 텍스트로 수렴하는 프로세스 구축
- NVFP4 4비트 부동소수점 네이티브 지원을 통한 연산 처리량 가속 및 정확도 손실 최소화
실천 포인트
- 실시간 인터랙션이 중요한 로컬 AI 에이전트 설계 시 Autoregressive 모델 대신 Diffusion 기반 모델 검토 - 비선형적 데이터(코드, 수학 그래프, 화학 서열) 생성 작업에 양방향 Attention 구조 적용 고려 - 고QPS 클라우드 환경보다는 저배치 로컬 추론 환경에서 병렬 디코딩의 비용 효율성 검증