#gqa 아티클 모음

Dev.to

학습 안정성과 추론 효율을 극대화한 Modern Transformer 설계 전략

How Modern Transformer Blocks Work — From RMSNorm to MoE

AI/MLadvanced18 분 소요2026년 6월 29일

Dev.to

KV Cache Is Eating Your VRAM — Here's How to Estimate It Before You Run Out

AI/MLadvanced16 분 소요2026년 6월 28일

GeekNews

12B DiT 기반의 창작 탐색형 이미지 모델 Krea 2 설계 및 학습 전략

AI/MLadvanced37 분 소요2026년 6월 26일

Dev.to

Why KV Cache Matters — How MQA, GQA, and MLA Make LLM Inference Faster

AI/MLintermediate15 분 소요2026년 6월 25일

Dev.to

MiniMax M3 Explained: The Sparse Attention Breakthrough

AI/MLadvanced11 분 소요2026년 6월 24일

Dev.to

Sparse Attention과 Tile I/O 최적화로 1M 컨텍스트 계산량 20배 절감

AI/MLadvanced6 분 소요2026년 6월 9일

Hacker News

Do Transformers Need Three Projections? Systematic Study of QKV Variants

AI/MLadvanced4 분 소요2026년 6월 4일

Dev.to

How to Optimize LLM Inference with KV Caching

AI/MLintermediate8 분 소요2026년 5월 14일

GeekNews

MTP 도입을 통한 Gemma 4 코드 생성 속도 3배 향상 및 아키텍처 분석

AI/MLadvanced4 분 소요2026년 5월 6일

Hugging Face Blog

SmolLM3: smol, multilingual, long-context reasoner

AI/MLintermediate44 분 소요2025년 7월 8일

Hugging Face Blog

Optimizing your LLM in production

Backendintermediate94 분 소요2023년 9월 15일