피드로 돌아가기
MosaicLeaks: Can your research agent keep a secret?
Hugging Face BlogHugging Face Blog
AI/ML

PA-DR RL 학습으로 데이터 유출 34%에서 9.9%로 절감

MosaicLeaks: Can your research agent keep a secret?

2026년 6월 18일9advanced

Context

Deep Research Agent가 내부 문서와 외부 웹 검색을 병행하는 과정에서 발생하는 Mosaic Effect 기반의 정보 유출 위험 확인. 개별 쿼리는 무해해 보이나 누적된 쿼리 로그를 통해 민감한 내부 정보가 재구성되는 구조적 취약점 존재.

Technical Solution

  • MosaicLeaks 벤치마크 설계를 통한 Intent, Answer, Full-Information 세 단계의 유출 측정 체계 구축
  • 내부 문서의 정답이 다음 외부 쿼리의 입력값이 되는 Multi-hop Chain 구조를 통해 유출 경로 정밀 분석
  • Prompting 기반의 제어 한계를 극복하기 위해 쿼리 생성 단계에 보상을 부여하는 Privacy-Aware Deep Research(PA-DR) RL 학습 도입
  • Task 성공률과 Privacy 유지 사이의 Trade-off를 최적화하는 상황 기반 Reward Function 설계
  • 쿼리 로그 내 민감 정보 포함 여부를 측정하여 정량적으로 페널티를 부여하는 학습 루프 구현

- 외부 API/웹 검색 쿼리에 내부 데이터가 포함되는지 검증하는 Query Logging 모니터링 체계 구축 - LLM 에이전트 설계 시 Multi-hop 추론 과정에서의 데이터 흐름(Data Flow) 분석 및 유출 지점 식별 - 보안 요구사항이 높은 시스템의 경우, 단순 가이드라인 제시보다 RLHF 또는 RL 기반의 Privacy-aware 학습 적용 검토

원문 읽기