R-STDP 도입을 통한 Multi-Agent SNN의 탐색률 302% 향상 및 역할 유연성 확보

A Cognitive Neuroscience Study in Multi-Agent Box-Pushing Adversarial Games

seng2026년 4월 10일14분advanced

AI 요약

Context

기존의 Evolutionary SNN 모델은 고정 가중치 기반의 정적인 행동 패턴에 의존하여 환경 변화에 따른 유연한 전략 수정이 어려움. 특히 Multi-Agent 환경에서 고정된 역할 분담으로 인한 병목 현상과 낮은 탐색 효율이 주요 한계점으로 작용함.

Technical Solution

R-STDP(Reward-modulated STDP) 기반의 Online Plasticity를 도입하여 실행 중 시냅스 가중치를 동적으로 업데이트하는 구조 설계
Brain, Communication, Exploration의 3개 SNN 서브 네트워크로 분리하여 인지, 소통, 탐색 기능을 모듈화한 아키텍처 채택
팀 점수 변화를 보상 신호로 활용하여 성공적인 행동 시퀀스의 연결 강도를 강화하는 학습 메커니즘 구현
MSF(Multiple Synapses per connection) 모델을 적용하여 신경망 연결의 표현력을 높이고 Bimodal Polarization 상태를 유지하며 학습 최적화
에너지 상태와 상관관계(r=0.56)를 갖는 펄스 기반 Communication Network를 통해 에이전트 간 상태 정보 공유 체계 구축

Impact

Exploration Rate: 6.10%에서 24.55%로 약 302% 증가
Behavioral Shift: Pushes 횟수 66.7% 감소 및 Attacks 횟수 40% 증가를 통한 전략적 유연성 확보
Role Reorganization: 고정 가중치 대비 Right Team의 역할 분담이 완전히 역전되는 동적 역할 재배치 실현
Social Behavior: 단순 공격 외에 Approach Rescue 등 고차원적 이타적 구제 행동의 출현 확인

Key Takeaway

정적인 Evolutionary 가중치에 Online Plasticity(R-STDP)를 결합함으로써, 사전 학습되지 않은 환경에서도 에이전트가 실시간으로 역할을 재정의하고 최적의 탐색-활용 균형(Exploration-Exploitation Balance)을 찾을 수 있음을 입증함.

실천 포인트

- 정적 모델의 성능 정체 시 Online Learning 메커니즘(STDP 등)의 결합 검토 - Multi-Agent 시스템 설계 시 역할 고정을 지양하고 상태 기반의 동적 역할 전환 로직 구현 - 에이전트 간 통신 설계 시 단순 데이터 전송이 아닌 내부 상태(Energy 등)와 상관관계를 갖는 신호 체계 검토

태그

#R-STDP #Evolutionary Algorithm #SNN #Synaptic Plasticity #Multi-agent

원문 읽기