IndexShare 도입으로 1M Context 구현 및 per-token FLOPs 2.9배 절감

GLM-5.2: Built for Long-Horizon Tasks

2026년 6월 17일14분advanced

AI 요약

Context

기존 LLM 아키텍처에서 Context Window 확장에 따른 연산 비용 증가와 긴 추론 궤적에서의 신뢰성 저하 문제 발생. 특히 1M-token 규모의 대규모 컨텍스트 유지 시 발생하는 메모리 및 연산 병목 해결이 필수적인 상황.

Technical Solution

IndexShare 기법을 통해 4개의 Sparse Attention Layer가 하나의 Lightweight Indexer를 공유하는 구조 설계
Indexer 연산 및 topk 작업을 1/4 수준으로 감소시켜 per-token FLOPs를 2.9배 최적화
MTP(Multi-token Prediction) 레이어에 IndexShare를 적용하여 Draft Model의 연산 비용 최소화
MTP 단계별 Hidden State 참조 범위를 제한함으로써 Training-Inference 간의 괴리를 제거하고 Speculative Decoding의 Acceptance Length를 최대 20% 향상
Thinking Effort Level 제어 기능을 도입하여 태스크 복잡도에 따른 추론 비용과 성능의 Trade-off 최적화
Coding-agent 시나리오 중심의 1M-context 학습 데이터 확장을 통한 실제 엔지니어링 태스크 수행 능력 강화

실천 포인트

- 대규모 컨텍스트 처리 시 모든 레이어에 독립적인 인덱서를 두지 않고, 그룹 단위 공유 구조(Shared Indexer) 검토 - 추론 비용 최적화를 위해 Task 복잡도별로 연산량을 조절하는 Dynamic Effort Level 메커니즘 도입 고려 - Speculative Decoding 적용 시 학습과 추론 단계의 데이터 흐름 일치 여부를 확인하여 Acceptance Rate 최적화

태그

#Long-Context #IndexShare #Sparse Attention #Speculative Decoding #MTP

원문 읽기