11년 된 Residual Connection의 한계, Attention Residual로 돌파

Attention Residuals: How Kimi Is Rethinking Transformer Depth

Guatu2026년 4월 7일4분advanced

AI 요약

Context

기존 Transformer는 모든 레이어 출력값을 동일한 가중치로 합산하는 단순 덧셈 구조. 모델 깊이가 증가할수록 초기 레이어의 신호가 희석되는 PreNorm dilution 현상 발생. 정규화 기법만으로는 레이어 깊이에 따른 신호 손실 문제를 근본적으로 해결하기 어려운 한계.

Technical Solution

고정된 덧셈 방식의 Residual Connection을 모든 이전 레이어 출력에 대한 Softmax Attention 구조로 대체
입력 데이터에 따라 이전 레이어들의 기여도를 동적으로 결정하는 Input-dependent 가중치 적용 방식
특정 작업에 필요한 레이어 정보만 선택적으로 추출하는 Depth-selective 메커니즘 설계
전체 레이어 대상 Attention의 연산 복잡도 O(n²) 해결을 위해 레이어를 그룹화한 Block AttnRes 도입
연산 효율화를 위한 2단계 계산 전략 및 캐시 기반 파이프라인 통신 최적화 적용
모델의 전체 파라미터 48B 중 3B만 활성화하는 Sparse Mixture-of-Experts 구조와 결합

Impact

1.4 Trillion Tokens 데이터셋 기반 사전 학습 수행
MMLU, GSM8K, TriviaQA 등 표준 벤치마크 성능의 일관된 향상 달성

Key Takeaway

단순한 스케일 확장보다 모델 내부의 기본 데이터 흐름(Plumbing)을 개선하는 아키텍처적 접근이 딥러닝 모델의 근본적인 추론 능력과 안정성을 높이는 핵심 동력임.

실천 포인트

초거대 모델 설계 시 레이어 깊이 증가에 따른 신호 희석 문제가 발생하면 Block-level Attention 기반의 잔차 연결 구조 검토 필요

태그

#Transformer #PreNorm dilution #Model Architecture #Attention Residuals #Mixture of Experts

원문 읽기