피드로 돌아가기
Dev.toAI/ML
원문 읽기
GraphRAG 도입으로 정확도 100% 달성 및 지연시간 62.5% 단축
How We Built CyberGraph RAG: A 3.5M Token Cybersecurity GraphRAG System with TigerGraph
AI 요약
Context
사이버 보안 데이터의 고도로 연결된 관계성을 처리하기 위해 기존 Vector RAG의 단순 텍스트 청크 기반 유사도 검색 방식 채택. 단순 거리 기반 검색으로 인한 컨텍스트 노이즈 발생 및 멀티홉(Multi-hop) 관계 추론 실패로 인한 Hallucination 문제 발생.
Technical Solution
- MITRE ATT&CK, CISA KEV, NVD 데이터를 기반으로 Threat Actor, Malware, CVE 등 엔티티 간 관계를 모델링한 TigerGraph 기반 지식 그래프 구축.
- 단순 Vector Similarity Search 대신 중심 엔티티 식별 후 Multi-hop Graph Traversal을 수행하는 검색 로직 설계.
- 관계 중심의 정밀한 컨텍스트 추출을 통해 LLM 프롬프트에 불필요한 텍스트 유입을 차단하는 데이터 필터링 구조 구현.
- 검색 결과의 신뢰성 검증을 위해 추출된 그래프 인접 영역을 동적으로 렌더링하는 Visualization 인터페이스 통합.
- 정형화된 관계 쿼리를 통해 LLM이 추론해야 할 정보의 범위를 좁혀 팩트 일관성 확보.
Impact
- 정확도(Accuracy): Basic RAG 60% 대비 GraphRAG 100% 달성.
- 응답 지연시간(Latency): 6.45s에서 3.80s로 약 62.5% 감소.
- 토큰 사용량: Basic RAG 대비 약 46.5% 감소(1280 → 685 tokens).
- 데이터 규모: 3.5M+ 토큰, 21,029개 문서, 35,072개 관계성 처리.
실천 포인트
1. 데이터 간 관계가 단순 텍스트 유사성보다 중요할 경우 Vector DB 대신 Graph DB 도입 검토
2. LLM 프롬프트 비용과 지연시간 최적화를 위해 Multi-hop Traversal을 통한 컨텍스트 정밀 제어 적용
3. RAG 시스템의 블랙박스 문제를 해결하기 위해 검색된 노드와 엣지를 시각화하는 디버깅 도구 구축