피드로 돌아가기
Dev.toAI/ML
원문 읽기
Layer Router 기반 Flux Attention으로 추론 비용 50% 절감 및 최대 2.8배 가속
Flux Attention halves inference cost on long contexts
AI 요약
Context
Standard Self-Attention의 O(n²) 복잡도로 인한 32k 이상의 Long-context 처리 비용 급증 문제 발생. 기존 Hybrid 방식의 고정된 FA/SA 비율 할당으로 인한 연산 낭비 및 Head-level Sparsity에 따른 Load-imbalance 병목 현상이 존재함.
Technical Solution
- Frozen pretrained model에 경량 Layer Router를 정적으로 결합한 구조 설계
- 입력 데이터 특성에 따라 레이어 단위로 Full Attention(FA)과 Sparse Attention(SA)을 동적으로 결정하는 Routing 메커니즘 도입
- Layer granularity 기반의 결정 체계를 통해 메모리 접근 패턴의 연속성을 확보하고 실질적인 Wall-clock gain 달성
- Parameter-efficient training 기법을 적용하여 8-GPU A800 노드 기준 12시간 만에 Router 학습 완료
- 레이어당 평균 0.20ms의 최소 오버헤드로 추론 지연 시간 최소화 및 처리량 극대화
실천 포인트
1. 타겟 컨텍스트 길이에 따른 Prefill/Decode Latency 벤치마크 수행
2. 레이어당
0.20ms의 라우팅 오버헤드가 전체 시스템 Throughput에 미치는 영향 평가
3. A800 외 타 하드웨어 아키텍처에서의 Sparsity 이득 및 라우팅 비용 밸런스 검증
4. Frozen checkpoint 기반의 Adapter 형태로 도입하여 기존 모델 커스터마이징 리스크 최소화