HBM 병목 해결을 위한 Online Softmax 기반 Flash Attention 설계 분석

I Built Flash Attention From Scratch — Here's What Nobody Tells You About It

JITENDRA KUMAR SINGH2026년 6월 20일1분advanced

AI 요약

Context

표준 Attention 구조에서 N×N Score Matrix를 GPU HBM에 전체 생성함에 따른 메모리 대역폭 병목 발생. 연산량(FLOPs)보다 메모리 I/O 비용이 전체 성능을 결정하는 Memory Wall 문제 직면.

실천 포인트

1. 메모리 집약적 연산 설계 시 Compute-bound인지 Memory-bound인지 우선 판별

2. 대규모 데이터 처리 시 전체 구체화(Materialization) 대신 Tiling을 통한 스트리밍 구조 검토

3. 전역 정보가 필요한 연산(Softmax 등)을 부분 합산 및 보정 가능한 Incremental 로직으로 변환 가능성 확인

태그