4TB 데이터 유출로 드러난 AI 데이터 스택의 Credential 관리 허점 분석

Mercor's 4TB Voice Heist: I Ran the Same Attack on My Own AI Data Stack

Juan Torchia2026년 4월 28일11분intermediate

AI 요약

Context

AI 학습 데이터 수집을 위해 분산된 외부 Contractor 모델을 채택하며 빠른 확장성에 집중한 아키텍처. 세밀한 권한 제어와 Credential Rotation 메커니즘 부재로 인한 보안 취약점 노출.

Technical Solution

Long-lived Token 기반의 스토리지 접근 권한 부여로 인한 영구적 접근 경로 생성
S3 sync 등 표준 도구를 이용한 무제한 데이터 Exfiltration 가능 구조
Debugging 목적의 Full Request Logging으로 인한 Authorization Header 및 User Prompt 평문 노출
Project-wide Access Policy 설정으로 인한 Preview Deployment 환경의 Production 데이터 접근 허용
환경 변수 및 .env 파일을 통한 Token 관리로 인한 Credential Leakage 위험 증가

실천 포인트

- 활성 API Token 전수 조사 및 만료일(Expiration Date) 설정 강제 - Production Log 내 Authorization Header 및 민감 정보 마스킹 처리 - Storage Bucket의 권한 범위를 Project-wide에서 최소 권한 원칙(Least Privilege)으로 변경 - CI/CD 파이프라인 내 Preview 환경과 Production 데이터 저장소 간의 네트워크/권한 분리

태그

#Exfiltration #Least Privilege #Credential Rotation #Attack Surface #Data Pipeline

원문 읽기