1.088B 파라미터 Pure SNN의 Random Init 기반 수렴 성공

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found

zerdovzad2026년 6월 17일1분advanced

AI 요약

Context

기존 1B+ 규모의 SNN 모델은 Vanishing Gradient 문제로 인해 Random Initialization 기반 학습이 어렵다는 기술적 한계 존재. 이를 해결하기 위해 대개 ANN-to-SNN Conversion이나 Distillation 기법에 의존하는 구조적 제약 상황.

Technical Solution

Pure Spike Domain 내 직접 학습을 통한 SNN 수렴 가능성 검증
1.088B 파라미터 규모의 아키텍처 확장을 통한 모델 용량 확보
Surrogate Gradient 최적화를 통한 역전파 안정화 시도
Persistent Memory Module 도입을 통한 대규모 파라미터의 메모리 라우팅 최적화
데이터셋 믹스 최적화를 통한 언어 모델링 성능 도출
27K Steps의 학습 과정을 통한 Loss 4.4 수렴 확인

실천 포인트

- 고밀도 모델의 추론 비용 절감을 위해 SNN의 Sparsity 특성 검토 - 모델 스케일업 시 Activation Routing의 변화 양상을 통한 메모리 모듈 효율성 분석 - Neuromorphic Hardware(Loihi 등) 적용 가능성을 고려한 Sparse 아키텍처 설계

태그

#Neuromorphic Computing #SNN #Random Initialization #Surrogate Gradient #Sparsity

원문 읽기