Anthropic, “Alibaba가 Claude AI 모델 역량을 불법 추출했다”

2.8천만 건의 API 교환을 통한 Claude 모델 역량 Distillation 시도 포착

neo2026년 6월 25일14분advanced

AI 요약

Context

강력한 Teacher 모델의 출력값을 사용하여 성능이 낮은 Student 모델을 학습시키는 Distillation 기법을 통한 모델 역량 추출 시도 발생. 특히 대규모 사기 계정을 활용해 API 제한을 우회하고 고성능 모델의 추론 능력을 복제하려는 체계적 공격 패턴이 식별됨.

Technical Solution

Teacher-Student 구조 기반의 Distillation을 통해 고성능 모델의 추론 체인과 정답 데이터를 학습 데이터셋으로 변환
약 2만 5천 개의 사기 계정을 생성하여 API Rate Limit을 분산시키는 분산 쿼리 전략 채택
추론 흔적(Reasoning Trace)을 포함한 고밀도 데이터를 추출하여 모델의 논리적 추론 역량 전이 시도
API 응답 데이터를 정제하여 Student 모델의 미세 조정(Fine-tuning) 및 RLAIF(RL from AI Feedback)에 활용
모델의 내부 가중치 접근 없이 출력값(Black-box)만으로 역량을 모방하는 데이터 중심의 추출 아키텍처 구성

Impact

2026년 4월 22일부터 6월 5일까지 약 2,880만 건 이상의 API 교환 발생
약 2만 5천 개의 사기 계정을 통한 대규모 데이터 크롤링 수행
DeepSeek(15만 건), Moonshot AI(340만 건), MiniMax(1,300만 건) 등 다수의 사례 식별

실천 포인트

- API 사용 패턴 분석을 통한 비정상적 대량 쿼리 및 유사 응답 요청 패턴 탐지 로직 구현 - 계정 생성 단계에서 신원 검증 및 기기 지문(Device Fingerprinting) 도입을 통한 Sybil Attack 방어 - 추론 과정의 상세 로그 노출을 최소화하는 응답 요약 및 열화 처리 방안 검토 - 데이터 추출을 목적으로 하는 반복적 쿼리 패턴에 대한 동적 Rate Limiting 적용

태그

#Distillation #Model Extraction #Fine-Tuning #API Security #RLAIF

원문 읽기