GLM 5.2, Semgrep IDOR 벤치마크에서 Claude 앞서

GLM 5.2, 단순 프롬프트로 Claude Code 대비 IDOR 탐지 F1 39% 달성

xguru2026년 6월 29일15분advanced

AI 요약

Context

IDOR 취약점은 명확한 Taint-flow가 없는 비즈니스 로직 결함으로 정적 분석과 LLM 모두 탐지가 까다로운 영역임. 기존 보안 에이전트는 모델 성능뿐만 아니라 엔드포인트 열거 및 코드 컨텍스트 선별을 수행하는 외부 하네스(Scaffolding) 의존도가 매우 높았음.

Technical Solution

전용 하네스 없이 Pydantic AI 기반 단순 하네스와 프롬프트만으로 구성한 평가 환경 설계
Mixture-of-Experts(MoE) 구조를 통한 효율적 파라미터 활성화(총 7,500억 개 중 400억 개 사용)
200K에서 1M까지 확장된 Context Window를 통해 다수 파일 및 권한 프레임워크 가로지르는 추론 수행
Reward-hacking 방지를 위한 Anti-hacking Guard 도입으로 평가 데이터 오염 및 우회 시도 차단
Open-weight 기반 배포를 통해 민감 환경 내 로컬 실행 및 도메인 특화 Fine-tuning 가능 구조 확보

Impact

IDOR 탐지 F1 점수: GLM 5.2(39%) > Claude Code(37%)
취약점 1개 발견당 비용: 약 $0.17로 Frontier 모델 대비 약 1/6 수준의 경제성 확보
Terminal-Bench 2.1 성능: 81.0 기록하여 이전 버전(63.5) 대비 대폭 향상
SWE-bench Pro: 62.1 점수로 코딩 에이전트 역량 입증

Key Takeaway

보안 탐지 성능은 모델 자체의 추론 능력과 외부 하네스의 탐색 전략 간의 상호작용 결과이며, 적절한 MoE 설계와 확장된 Context Window는 복잡한 비즈니스 로직 분석의 핵심 동인임.

실천 포인트

- 보안 분석 에이전트 설계 시 단순 LLM 교체보다 엔드포인트 열거 및 컨텍스트 선별 하네스 구축 우선 검토 - 데이터 민감도가 높은 환경에서는 Open-weight 모델의 로컬 배포를 통한 보안성 및 비용 최적화 고려 - LLM 기반 자동화 툴 도입 시 Reward-hacking 가능성을 염두에 둔 Guardrail 설계 적용

태그

#Context Window #MoE #IDOR #Open-Weight #F1-score

원문 읽기