Residual Connection 도입으로 Loss 1.70 달성 및 층 심화 시 학습 안정성 확보

Time When More Layers Meant Worse Model ... Birth Of Residual

Aviral Singh2026년 5월 27일6분intermediate

AI 요약

Context

Deep Learning 모델에서 Layer 수가 증가함에 따라 오히려 Error가 증가하는 Degradation 문제 발생. 기존 Batch Normalization과 ReLU 적용만으로는 깊은 층에서 발생하는 최적화 난제를 완전히 해결하지 못한 한계 존재.

입력 벡터를 출력에 직접 더하는 Residual Connection(x = x + output) 구조 설계
Non-linear 연산의 반복으로 인한 원본 데이터 손실 및 값의 급격한 변동을 방지하는 Identity Mapping 구현
LayerNorm과 ReLU를 통한 Vanishing Gradient 제어와 별개로, 데이터의 정체성을 유지하는 Shortcut Connection 적용
층이 깊어질수록 누적되는 작은 변화량이 원본 값에서 크게 벗어나지 않도록 하는 수치적 안정성 확보
복잡한 연산 결과에 원본 값을 가산함으로써 모델이 '잔차(Residual)'만을 학습하도록 유도하는 메커니즘 적용

실천 포인트

1. Deep Layer 설계 시 단순 적층보다 Skip Connection 도입을 통한 정보 보존 여부 검토

2. LayerNorm과 ReLU 적용 후에도 Loss가 정체된다면 Residual 구조를 통한 최적화 경로 확보 시도

3. 모델 심화에 따른 성능 저하 발생 시 Gradient Vanishing뿐 아니라 Feature Drift 가능성 분석

태그