피드로 돌아가기
The RegisterSecurity
원문 읽기
12달러 도메인과 Wikipedia 조작을 통한 RAG 및 LLM 학습 데이터 오염 입증
Yet another experiment proves it's too damn simple to poison large language models
AI 요약
Context
LLM의 Web Search 기반 RAG 아키텍처가 소스 데이터의 신뢰성(Provenance) 검증 없이 검색 랭킹 상위 결과에 과도하게 의존하는 구조적 취약점 보유. 특히 검색 엔진의 다중 소스 비교 기능이 제거된 AI 챗봇 인터페이스로 인해 거짓 정보가 권위 있는 사실로 둔갑하는 현상 발생.
Technical Solution
- $12 비용의 신규 도메인 등록 및 허위 보도자료 게시를 통한 기초 데이터 생성
- Wikipedia 내 신뢰도 높은 페이지에 허위 도메인을 인용구로 삽입하여 Retrieval 랭킹 조작
- RAG Layer의 검색 결과 우선순위 메커니즘을 이용해 LLM이 조작된 소스를 유일한 근거로 채택하게 유도
- 학습 데이터셋(Corpus)에 반영되기 전 삭제하더라도 이미 스크래핑된 데이터는 모델 가중치에 잔존하는 Corpus Poisoning 유도
- 단순 정보 제공 모델을 넘어 Tool Access 권한을 가진 AI Agent의 오작동을 유발하는 실행 경로 설계
실천 포인트
1. RAG 구현 시 단일 소스 의존도를 낮추기 위한 다중 소스 교차 검증 로직 도입
2. 신규 생성 도메인 및 최근 수정된 외부 문서에 대한 신뢰도 가중치 하향 조정 필터링 적용
3. LLM 기반 Agent 설계 시 외부 retrieved source에 의한 Action 실행 전 인간 개입(Human-in-the-loop) 단계 추가
4. 학습 데이터셋 구성 시 데이터 소스의 이력 관리 및 오염 데이터 제거를 위한 정제 파이프라인 구축