피드로 돌아가기
Dev.toAI/ML
원문 읽기
권한 기반 필터링으로 데이터 유출과 노이즈를 동시에 잡은 Access-Aware RAG
Building an Agentic Access-Aware RAG System with Amazon FSx for NetApp ONTAP, S3 Vectors, and S3 Access Points— Where AI Respects File Permissions
AI 요약
Context
전통적 RAG 시스템은 시맨틱 유사도만 고려하여 문서 권한 경계를 무시함. 권한 없는 사용자가 기밀 정보에 접근하는 보안 취약점이 발생함. 타 팀의 불필요한 데이터가 검색 결과에 섞여 응답 품질이 저하됨.
Technical Solution
- Amazon FSx for NetApp ONTAP의 파일 권한 정보를 S3 Access Point를 통해 Bedrock KB로 직접 연결하는 단일 경로 데이터 수집 구조
- 사용자의 개인 및 그룹 SID(Security Identifier) 리스트를 DynamoDB에서 실시간 조회하는 인증 기반 필터링 설계
- Vector Search 결과의 메타데이터에 포함된 allowed_group_sids와 사용자 SID를 대조하여 허용된 문서만 추출하는 2단계 검증 프로세스
- 필터링된 문서만을 Bedrock Converse API에 전달하여 사용자 역할에 최적화된 맞춤형 답변 생성 방식
- AWS CDK를 활용하여 WAF, Cognito, Bedrock KB, FSx for ONTAP를 포함한 전체 인프라를 단일 명령으로 배포하는 자동화 스택 구축
Impact
전체 인프라 배포 소요 시간 약 30-40분(FSx for ONTAP 생성에 20-30분 포함).
Key Takeaway
AI 시스템의 보안과 정확도는 데이터 모델링 단계에서부터 기존 엔터프라이즈 권한 체계(ACL, SID)를 벡터 메타데이터에 통합 설계함으로써 달성 가능함.
실천 포인트
엔터프라이즈 RAG 구축 시 Vector Store의 메타데이터 필터링 기능을 활용하여 ACL 기반의 접근 제어 계층을 반드시 구현할 것