피드로 돌아가기
Dev.toAI/ML
원문 읽기
R-STDP 도입을 통한 Multi-Agent SNN의 탐색률 302% 향상 및 역할 유연성 확보
A Cognitive Neuroscience Study in Multi-Agent Box-Pushing Adversarial Games
AI 요약
Context
기존의 Evolutionary SNN 모델은 고정 가중치 기반의 정적인 행동 패턴에 의존하여 환경 변화에 따른 유연한 전략 수정이 어려움. 특히 Multi-Agent 환경에서 고정된 역할 분담으로 인한 병목 현상과 낮은 탐색 효율이 주요 한계점으로 작용함.
Technical Solution
- R-STDP(Reward-modulated STDP) 기반의 Online Plasticity를 도입하여 실행 중 시냅스 가중치를 동적으로 업데이트하는 구조 설계
- Brain, Communication, Exploration의 3개 SNN 서브 네트워크로 분리하여 인지, 소통, 탐색 기능을 모듈화한 아키텍처 채택
- 팀 점수 변화를 보상 신호로 활용하여 성공적인 행동 시퀀스의 연결 강도를 강화하는 학습 메커니즘 구현
- MSF(Multiple Synapses per connection) 모델을 적용하여 신경망 연결의 표현력을 높이고 Bimodal Polarization 상태를 유지하며 학습 최적화
- 에너지 상태와 상관관계(r=0.56)를 갖는 펄스 기반 Communication Network를 통해 에이전트 간 상태 정보 공유 체계 구축
Impact
- Exploration Rate: 6.10%에서 24.55%로 약 302% 증가
- Behavioral Shift: Pushes 횟수 66.7% 감소 및 Attacks 횟수 40% 증가를 통한 전략적 유연성 확보
- Role Reorganization: 고정 가중치 대비 Right Team의 역할 분담이 완전히 역전되는 동적 역할 재배치 실현
- Social Behavior: 단순 공격 외에 Approach Rescue 등 고차원적 이타적 구제 행동의 출현 확인
Key Takeaway
정적인 Evolutionary 가중치에 Online Plasticity(R-STDP)를 결합함으로써, 사전 학습되지 않은 환경에서도 에이전트가 실시간으로 역할을 재정의하고 최적의 탐색-활용 균형(Exploration-Exploitation Balance)을 찾을 수 있음을 입증함.
실천 포인트
- 정적 모델의 성능 정체 시 Online Learning 메커니즘(STDP 등)의 결합 검토 - Multi-Agent 시스템 설계 시 역할 고정을 지양하고 상태 기반의 동적 역할 전환 로직 구현 - 에이전트 간 통신 설계 시 단순 데이터 전송이 아닌 내부 상태(Energy 등)와 상관관계를 갖는 신호 체계 검토