Hubel과 Wiesel의 고양이 시각 피질 실험에서 영감을 받은 CNN이 완전연결망의 한계를 극복하고 150M개 파라미터를 35K개로 줄인 비전 기술의 전환점을 다룬다

From Generalists to Specialists: The CNN Shift

Nilavukkarasan R2026년 3월 31일11분intermediate

AI 요약

Context

이전 포스트에서 dropout과 weight decay로 MNIST의 일반화 문제를 해결했다. 하지만 28×28 흑백 숫자가 아닌 224×224 컬러 이미지를 처리하려 할 때, 150,528개의 입력값이 첫 번째 은닉층에서 1억 5천만 개의 파라미터를 생성했다. 완전연결망으로는 이미지의 공간적 구조를 효율적으로 처리할 수 없었다.

Technical Solution

Fully Connected Network → 각 픽셀이 모든 뉴런에 별도의 가중치로 연결되어 공간 구조를 파괴함
CNN → 같은 필터를 이미지의 모든 위치에 슬라이딩하여 가중치를 공유하며, 3×3 필터로 국소 영역만 탐색함
Backpropagation으로 수직/수평 가장자리, 질감 등 유용한 패턴을 자동으로 학습하는 필터 생성함
Feature Map은 필터가 검출한 패턴의 위치와 강도를 2D 그리드로 표현함
시각 피질의 계층적 구조를 모방하여, 깊은 층으로 갈수록 더 복잡한 패턴에 응답함

Impact

2012년 AlexNet이 ImageNet 오류율을 26%에서 15%로 낮추었다. 이 결과로 수동 피처 엔지니어링 시대에서 자동 학습 피처 시대로 전환되었다.

Key Takeaway

가중치 공유(weight sharing)와 국소 수용 영역(local receptive field)은의 시각 피질 구조에서 영감을 받아, 파라미터 수를 획기적으로 줄이면서 동시에 이동 불변성(translation invariance)을 달성하는 CNN의 핵심 설계 원칙이다.

실천 포인트

이미지 분류 시스템에서 CNN의 Local Receptive Field와 Learnable Filter를 적용하면 공간적 구조를 보존하면서 파라미터 수를 대폭 감소시킬 수 있다

태그

#AlexNet #Local Receptive Field #CNN #Weight Sharing #Feature Map

원문 읽기