Layer Router 기반 Flux Attention으로 추론 비용 50% 절감 및 최대 2.8배 가속

Flux Attention halves inference cost on long contexts

Papers Mache2026년 5월 10일2분advanced

AI 요약

Context

Standard Self-Attention의 O(n²) 복잡도로 인한 32k 이상의 Long-context 처리 비용 급증 문제 발생. 기존 Hybrid 방식의 고정된 FA/SA 비율 할당으로 인한 연산 낭비 및 Head-level Sparsity에 따른 Load-imbalance 병목 현상이 존재함.

Technical Solution

Frozen pretrained model에 경량 Layer Router를 정적으로 결합한 구조 설계
입력 데이터 특성에 따라 레이어 단위로 Full Attention(FA)과 Sparse Attention(SA)을 동적으로 결정하는 Routing 메커니즘 도입
Layer granularity 기반의 결정 체계를 통해 메모리 접근 패턴의 연속성을 확보하고 실질적인 Wall-clock gain 달성
Parameter-efficient training 기법을 적용하여 8-GPU A800 노드 기준 12시간 만에 Router 학습 완료
레이어당 평균 0.20ms의 최소 오버헤드로 추론 지연 시간 최소화 및 처리량 극대화

실천 포인트

1. 타겟 컨텍스트 길이에 따른 Prefill/Decode Latency 벤치마크 수행

2. 레이어당

0.20ms의 라우팅 오버헤드가 전체 시스템 Throughput에 미치는 영향 평가

3. A800 외 타 하드웨어 아키텍처에서의 Sparsity 이득 및 라우팅 비용 밸런스 검증

4. Frozen checkpoint 기반의 Adapter 형태로 도입하여 기존 모델 커스터마이징 리스크 최소화

태그

#Long-Context #Flux Attention #Layer Router #Sparse Attention #Inference Optimization

원문 읽기