LLM의 실무 취약점 발견 능력을 검증하는 적응형 벤치마크 N-Day-Bench 설계

N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

2026년 4월 13일1분intermediate

AI 요약

Context

기존 LLM 평가 방식의 Reward Hacking 가능성과 학습 데이터 포함으로 인한 성능 왜곡 문제 발생. Knowledge Cut-off 이후 공개된 실제 취약점(N-Days)을 탐지하는 실질적인 Security Capability 측정 체계 부재.

실천 포인트

1. AI 모델 평가 시 학습 데이터 오염을 방지하기 위한 Cut-off 이후 데이터셋 확보 여부 검토

2. 정밀한 성능 비교를 위해 모델 간 입력 Context와 실행 Harness의 동일성 보장

3. 정적 데이터셋이 아닌 주기적 업데이트 체계를 통한 벤치마크의 유효 기간 관리

태그