피드로 돌아가기
How CNNs Work — From Convolution Kernels to ResNet
Dev.toDev.to
AI/ML

Spatial 구조 보존과 Weight Sharing을 통한 이미지 인식 효율 최적화

How CNNs Work — From Convolution Kernels to ResNet

shangkyu shin2026년 5월 8일4intermediate

Context

기존 Fully Connected Layer의 이미지 데이터 Flat Vector 처리 방식에 따른 Spatial Structure 손실 발생. 픽셀 간의 지역적 관계를 무시하고 과도한 Parameter를 사용하여 학습 효율과 일반화 성능이 저하된 한계 존재.

Technical Solution

  • Local Filter 기반의 Convolution Kernel 도입을 통한 인접 픽셀 간의 공간적 특징 추출
  • Weight Sharing 메커니즘 적용으로 모델 Parameter 수를 획기적으로 줄여 연산 효율성 확보
  • Low-level Edge에서 High-level Object로 이어지는 Hierarchical Feature 추출 구조 설계
  • Pooling Layer를 통한 Spatial Size 감소 및 주요 특징의 Translation Invariance 구현
  • ResNet의 Skip Connection 도입을 통한 Gradient Vanishing 해결 및 초심층 네트워크 학습 가능화
  • Inception Module 기반의 Multi-scale Feature 추출로 연산 비용 최적화 및 표현력 강화

- 입력 데이터의 공간적 특성(Spatial Locality) 존재 여부에 따른 아키텍처 선택 검토 - Model Depth 증가 시 Degradation Problem 방지를 위한 Residual Connection 적용 고려 - 파라미터 수 감소와 일반화 성능 향상을 위한 Weight Sharing 가능 지점 식별 - 단순 레이어 적층보다 Feature Hierarchy(계층적 특징 추출) 관점의 설계 우선

원문 읽기