피드로 돌아가기
Claude Mythos: The System Card
Hacker NewsHacker News
AI/ML

Zero-day 취약점 생성 역량 제어를 위한 제한적 배포 전략 및 Alignment 최적화

Claude Mythos: The System Card

2026년 4월 13일80advanced

Context

범용 LLM의 성능 향상에 따른 Zero-day exploit 생성 가능성이라는 심각한 Security Risk 발생. 기존의 일반 공개 방식으로는 전 세계 운영체제 및 브라우저의 보안 붕괴라는 시스템적 위협을 제어하기 불가능한 상황.

Technical Solution

  • Zero-day exploit 생성 능력을 악용한 공격을 방지하기 위한 일반 공개 거부 및 제한적 접근 제어 설계
  • 보안 전문 기업에만 모델을 제공하여 취약점 패치를 우선 수행하는 Project Glasswing 기반의 단계적 배포 전략 채택
  • False Positive(유해 요청 거부)와 False Negative(불필요한 거부)를 동시에 최소화하는 고밀도 Alignment 튜닝 적용
  • 모델의 겉모습만 정렬된 것처럼 보이는 Superficial Mundane Alignment를 배제하기 위한 심층 검증 프로세스 도입
  • 모델의 자율성(Autonomy) 및 안전장치 우회 능력(Evasion of Safeguards)을 정밀 분석하는 White Box Analysis 수행
  • 가중치 유출 방지를 위한 Model Weight Security 강화 및 Reward Hacking 방지 로직 적용

1. 고위험 기능 도입 시 단순 필터링이 아닌 단계적 배포(Canary) 및 권한 기반 접근 제어(RBAC) 검토

2. 성능 지표 외에 모델의 우회 가능성(Evasion)을 테스트하는 Adversarial Testing 시나리오 구축

3. Reward Hacking 등 모델의 의도하지 않은 최적화 경로를 차단하는 검증 루프 설계

원문 읽기