restricted_leak_count 0 달성을 위한 Pre-retrieval Access Control 설계

The Access Control Gap That Makes Most Enterprise RAG Systems Dangerous

Manjunath2026년 5월 19일5분intermediate

AI 요약

Context

기존 RAG 시스템의 Post-retrieval filtering 방식은 Retrieval 후 Citation 단계에서만 제한을 적용함. 이로 인해 LLM이 이미 제한된 문서를 읽어 답변에 반영하는 데이터 유출(Leakage) 문제가 발생하며 이는 기업 보안의 심각한 설계 결함으로 작용함.

Technical Solution

Access Control을 Retrieval Scoring 이전 단계로 전진 배치한 Pre-retrieval 필터링 구조 설계
사용자 Identity에 기반한 Role Model을 구축하여 권한 없는 문서를 Candidate Set에서 원천 배제
권한 검증 후 통과된 문서만 Ranking 및 Generator 전달 프로세스로 연결하여 정보 유출 경로 차단
Forbidden Document ID를 포함한 Evaluation Set을 통해 역할별 답변 일치 여부를 검증하는 테스트 체계 구축
Lexical Retrieval 기반의 Token Cosine Similarity 스코어링을 통한 초기 검증 수행

실천 포인트

1. RAG 파이프라인 내 Access Control이 Scoring 이전에 위치하는지 확인

2. Citation 리스트 제거가 아닌 Response Content 내 정보 유출 여부를 검증하는 테스트 케이스 설계

3. restricted_leak_count 메트릭을 도입하여 권한 외 문서의 영향도를 정량적으로 추적

4. Entra ID 또는 OIDC 기반의 Identity Provider를 통한 Role Context 동적 매핑 검토

태그

#Identity Provider #Information Leakage #Access Control #RAG #Pre-retrieval Filtering

원문 읽기