피드로 돌아가기
GPT-5.4-Cyber explained: OpenAI's cyber-only AI
Dev.toDev.to
Security

GPT-5.4-Cyber: 신원 기반 접근 제어로 구현한 Cyber-Permissive 아키텍처

GPT-5.4-Cyber explained: OpenAI's cyber-only AI

Sameer Khan2026년 4월 15일4advanced

Context

모델 내부의 Refusal Training 기반 안전장치가 공격자와 방어자 모두에게 동일한 제약을 부여하는 비효율 발생. 특히 Binary Reverse Engineering과 같은 고부가가치 방어 작업이 안전 필터에 의해 차단되는 병목 지점 형성.

Technical Solution

  • Base Model의 가중치는 유지하되 Refusal Boundary를 낮춘 Cyber-Permissive 전용 Fine-tuning 수행
  • 모델 내부의 거절 로직 대신 Trusted Access for Cyber(TAC) 프로그램을 통한 외부 Identity Layer 검증 구조 도입
  • 신원 확인(KYC)을 거친 검증된 사용자에게만 허용된 SKU 기반의 계층적 모델 배포 전략 채택
  • 컴파일된 소프트웨어의 취약점 및 악성코드 분석을 위한 Binary Reverse Engineering 기능 활성화
  • 일반 모델의 Refusal Classifier를 우회하는 것이 아닌, 권한 기반의 분리된 모델 티어 제공으로 보안 무결성 유지

Impact

  • Codex Security를 통한 3,000개 이상의 Critical 및 High 취약점 수정 기여
  • 1,000개 이상의 Open Source 프로젝트에 Codex for Open Source 적용
  • 1,000만 달러 규모의 Cybersecurity Grant Program을 통한 방어 도구 생태계 확장

Key Takeaway

기능적 제약(Refusal)을 모델 내부 로직으로 해결하려는 시도보다, 신원 기반의 접근 제어(Identity-gated)를 통해 Dual-use 캡빌리티를 전략적으로 분리하는 것이 효율적임.


- 보안 요구사항이 높은 기능 설계 시 모델 내부 필터링보다 외부 권한 관리 레이어(RBAC/ABAC) 도입 검토 - AI 모델의 Safety Guardrail이 실제 사용자 경험(UX) 및 업무 생산성을 저해하는 지점 식별 - 검증된 사용자 그룹을 위한 별도의 Permissive Tier 모델 운영 가능성 분석

원문 읽기