분리된 5개 인지 계층 설계를 통한 Adversarial Prompt 성공률 30%p 감소

The Five Faculties: A Tour of SAFi's Cognitive Architecture

Nelson Amaya2026년 6월 7일5분advanced

AI 요약

Context

단일 LLM 기반의 Prompt-level 정렬 방식은 창의적인 공격에 취약하며 생성과 평가의 역할 충돌로 인한 거버넌스 한계 노출. 모델 스스로 자신의 출력을 판단하게 하는 구조적 결함으로 인해 신뢰할 수 있는 보안 경계 구축에 어려움 존재.

Phase Zero의 Deterministic Scan 도입을 통한 LLM 호출 전 보안 위협 사전 차단 및 리소스 낭비 방지
Synderesis 계층의 Read-only 정책 설정을 통한 런타임 시 가치 체계 변조 및 Social Engineering 원천 차단
Intellect와 Will 사이의 Air Gap 설계를 통해 생성 모델의 직접적인 Tool Execution 권한을 제거하고 제안 기반의 승인 구조 채택
Conscience의 가중치 기반 점수 산출과 Will의 결정론적 Gatekeeper 로직을 결합한 다단계 검증 파이프라인 구축
Spirit 계층 내 Exponential Moving Average(EMA) 적용을 통한 에이전트의 행동 편차(Behavioral Drift) 정량적 추적 및 캐릭터 일관성 유지
거버넌스 레이어의 모델 독립적 설계를 통해 하위 LLM 교체 시에도 동일한 정책 유지 가능 구조 확보

실천 포인트

1. LLM이 직접 Tool을 실행하게 하지 말고 제안(Proposal) 후 결정론적 코드(Deterministic Code)로 승인하는 구조인지 검토

2. 보안 필터링을 LLM에 의존하지 않고 정규식이나 Entropy 기반의 Deterministic Gate를 최전방에 배치했는지 확인

3. 단일 점수가 아닌 지표의 이동 평균을 통해 모델의 행동 편차를 모니터링하는 체계 구축 고려

태그