LLM 3종 벤치마크를 통한 Smart Contract Audit 자동화 가능성 검증

Can LLMs Audit Smart Contracts? Benchmarking Claude Opus 4.7, GPT-5.5, and Gemini 3.1 Pro

Fahriddin2026년 5월 6일10분advanced

AI 요약

Context

DeFi 프로토콜의 막대한 자산 규모 대비 전문 Audit 비용의 고비용 및 장기간 소요 문제 발생. 기존 정적 분석 도구의 한계를 넘어 Frontier LLM의 취약점 탐지 및 분류 성능을 정밀하게 측정할 필요성 대두.

Technical Solution

SmartBugs Curated 데이터셋 기반 56개 Solidity 컨트랙트를 활용한 실험 설계
DASP-10 Taxonomy를 적용하여 Reentrancy, Access Control 등 9가지 핵심 취약점 카테고리 정의
모델의 '치팅' 방지를 위해 소스 코드 내 정답 레이블 및 @vulnerable_at_lines 헤더를 공백으로 치환하는 Sanitization 프로세스 적용
Lenient Recall(카테고리 일치 여부)과 Strict Recall(취약 지점 $\pm 2$ 라인 내 식별 여부)의 이원화된 Scoring 메트릭 구축
모델별 Output Token Budget 설정 및 Truncation 여부 검증을 통한 데이터 신뢰성 확보
Prompt 정형화를 위해 동일한 JSON Schema 출력 강제 및 동일한 평가 파이프라인 적용

실천 포인트

- LLM 벤치마크 수행 시 Output Token Budget 설정을 반드시 확인하여 Truncation으로 인한 성능 왜곡 방지 - Smart Contract Audit 도입 시, False Positive를 허용하는 1차 필터링(Claude) 후 정밀 검증(GPT) 단계의 파이프라인 구성 검토 - 단순 카테고리 분류를 넘어 취약 라인의 정밀도($\pm N$ lines)를 측정하는 Strict Metric 도입

태그

#DASP-10 #Smart Contract Audit #Solidity #LLM-Benchmarking #Vulnerability Detection

원문 읽기