AI 보안 취약점 탐지의 Training Data Echo 제거를 위한 3단계 검증 파이프라인

How to verify AI-discovered vulnerabilities aren't just training data echoes

Alan West2026년 5월 12일6분intermediate

AI 요약

Context

LLM 기반 취약점 분석 도구가 Reasoning이 아닌 Training Data 내의 기존 CVE 정보를 Recall 하여 정답을 제시하는 현상 발생. 모델 내부적으로 Memory 기반 출력과 추론 기반 출력을 구분하는 플래그가 없어 분석 결과의 신뢰성 확보가 불가능한 구조적 한계 존재.

Technical Solution

NVD JSON 피드를 활용한 Fuzzy-matching 기반의 CVE 지문 대조로 기인지 취약점 1차 필터링
Git History 분석을 통한 CVE 패치 이력 및 코드 변경 시점 추적으로 Regression 여부 판별
패키지명 및 식별자를 해시 처리하는 Anonymization 기법을 통해 모델의 Pattern-matching 유도 제거
Redacted Source Code 상에서도 동일한 취약점 클래스가 탐지되는지 확인하여 추론 기반의 유효성 검증
실제 동작하는 PoC 생성을 최종 Triage 조건으로 설정하여 이론적 추측과 실제 취약점 구분

실천 포인트

- AI 탐지 결과에 대해 NVD 데이터베이스와

0.6 이상의 유사도 검사 수행 - Git blame 및 log 분석으로 취약점 발생 지점의 수정 이력 확인 - 함수명 및 패키지명을 마스킹한 상태에서 LLM의 재분석 결과 비교 - 모델의 Training Cut-off 시점 이전 CVE 리스트와 대조 필터 적용 - 실행 가능한 PoC 확보 전까지는 P1 등급 부여 보류

태그

#CVE #Vulnerability Research #Data Leakage #LLM #Anonymization

원문 읽기