피드로 돌아가기
Aggregate Benchmarks Lie. Here's What 700 AI Functions Look Like by Security Domain.
Dev.toDev.to
Security

Aggregate Benchmark의 함정: 도메인별 보안 취약점 및 Remediation 성능 분석

Aggregate Benchmarks Lie. Here's What 700 AI Functions Look Like by Security Domain.

Ofri Peretz2026년 5월 17일13advanced

Context

단일 수치 기반의 Aggregate Benchmark가 모델의 실제 보안 성능을 왜곡하는 문제 발생. 코드 복잡도와 기능 풍부함에 따라 취약점 노출 면적이 달라지는 특성을 무시한 채 단순 Accuracy로만 평가하는 기존 방식의 한계 분석.

Technical Solution

  • 700개 AI 함수를 5개 보안 도메인(Database, Auth, File I/O, Config, Command Execution)으로 분리하여 분석 체계 구축
  • 단순 Generation 단계의 Vuln Rate와 사후 수정 단계의 Remediation Fix Rate를 분리하여 Net Security Position 도출
  • 코드의 복잡도(Complexity)와 보안 규칙 트리거 간의 상관관계를 분석하여 단순 구현 모델과 Production-grade 모델의 특성 차이 식별
  • 도메인 특화 모델 선택 전략을 통해 전체 최적화가 아닌 Task-specific 최적화 구조 제안
  • Generation-Remediation Cycle을 통한 최종 보안 상태의 역전 현상을 정량적으로 검증

- AI 코드 생성 도입 시 Aggregate Score 대신 도메인별 Vuln Rate와 Fix Rate를 개별 측정할 것 - Complex Production Code가 필요한 도메인은 Generation 단계의 취약점보다 Remediation 능력이 높은 모델을 배치할 것 - Shell Operation 등 Remediation 성공률이 극히 낮은 도메인은 AI 의존도를 낮추고 Manual Review 프로세스를 강제할 것

원문 읽기