피드로 돌아가기
OpenAI and Anthropic are Friendster and MySpace, if Subquadratic proves to be true.
Dev.toDev.to
AI/ML

SSA 도입으로 1M 토큰 기준 Prefill 속도 52.2배 향상 및 선형 스케일링 구현

OpenAI and Anthropic are Friendster and MySpace, if Subquadratic proves to be true.

Jonathan Murray2026년 5월 6일15advanced

Context

Dense Attention의 Quadratic Cost로 인한 컨텍스트 확장 시 비용 및 지연 시간의 기하급수적 증가 발생. 기존 RAG 및 Chunking 방식은 정보 손실과 복잡한 오케스트레이션 비용을 초래하는 임시방편적 구조에 불과함.

Technical Solution

  • Subquadratic Sparse Attention(SSA) 도입을 통한 Linear Scaling Attention 메커니즘 구현
  • 모든 토큰 간 쌍을 비교하는 Dense Attention의 낭비 요소를 제거하고 유의미한 Attention Weight 중심의 연산 수행
  • 고정 패턴(Sliding Window 등)이 아닌 Content-aware 기반의 동적 라우팅으로 Retrieval 성능 유지
  • State Space Model의 정보 압축 및 소실 문제를 해결하며 Subquadratic 복잡도 달성
  • 모델 내부의 Retrieval 연산을 최적화하여 분산된 컨텍스트 간의 Multi-hop Reasoning 능력 강화

- 비용 문제로 유보했던 Long-context 기반 기능의 경제성 재검토 - RAG, Recursive Summarization 등 복잡한 Scaffolding 로직의 단순화 가능성 타진 - Dense-attention 기반의 토큰 과금 체계에 종속된 장기 계약 리스크 분석 - Commodity Infra에서 동작 가능한 Efficient Architecture 모델로의 전환 준비

원문 읽기