피드로 돌아가기
Dev.toSecurity
원문 읽기
LLM 3종 벤치마크를 통한 Smart Contract Audit 자동화 가능성 검증
Can LLMs Audit Smart Contracts? Benchmarking Claude Opus 4.7, GPT-5.5, and Gemini 3.1 Pro
AI 요약
Context
DeFi 프로토콜의 막대한 자산 규모 대비 전문 Audit 비용의 고비용 및 장기간 소요 문제 발생. 기존 정적 분석 도구의 한계를 넘어 Frontier LLM의 취약점 탐지 및 분류 성능을 정밀하게 측정할 필요성 대두.
Technical Solution
- SmartBugs Curated 데이터셋 기반 56개 Solidity 컨트랙트를 활용한 실험 설계
- DASP-10 Taxonomy를 적용하여 Reentrancy, Access Control 등 9가지 핵심 취약점 카테고리 정의
- 모델의 '치팅' 방지를 위해 소스 코드 내 정답 레이블 및
@vulnerable_at_lines헤더를 공백으로 치환하는 Sanitization 프로세스 적용 - Lenient Recall(카테고리 일치 여부)과 Strict Recall(취약 지점 $\pm 2$ 라인 내 식별 여부)의 이원화된 Scoring 메트릭 구축
- 모델별 Output Token Budget 설정 및 Truncation 여부 검증을 통한 데이터 신뢰성 확보
- Prompt 정형화를 위해 동일한 JSON Schema 출력 강제 및 동일한 평가 파이프라인 적용
실천 포인트
- LLM 벤치마크 수행 시 Output Token Budget 설정을 반드시 확인하여 Truncation으로 인한 성능 왜곡 방지 - Smart Contract Audit 도입 시, False Positive를 허용하는 1차 필터링(Claude) 후 정밀 검증(GPT) 단계의 파이프라인 구성 검토 - 단순 카테고리 분류를 넘어 취약 라인의 정밀도($\pm N$ lines)를 측정하는 Strict Metric 도입