피드로 돌아가기
Dev.toAI/ML
원문 읽기
Leiden 알고리즘 기반 GraphRAG 내 2~9개 규모 소형 커뮤니티의 Orphan화 분석
Orphan Communities in GraphRAG Hierarchical Clustering: Why Some Communities Have No PARENT_OF Edges
AI 요약
Context
GraphRAG는 Leiden 알고리즘을 통해 엔티티 그래프를 계층적 커뮤니티 구조로 클러스터링함. 이 과정에서 일부 커뮤니티가 PARENT_OF 엣지를 갖지 않는 Orphan 상태가 되어 Global Search 시 정보 누락이 발생하는 구조적 한계 존재.
Technical Solution
- Modularity 기준에 따른 계층 분할 로직 적용으로 통계적 유의미성이 낮은 소규모 그룹의 하위 분할 배제
- 외부 커뮤니티와의 연결성이 희소한 그룹에 대해 Cohesion 저하 방지를 위한 강제 병합 차단
- 엔티티 수 2~9개 사이의 소형 커뮤니티를 최하위 계층으로 유지하여 상위-하위 계층 간 연결 고리 제거
- Global Search 시 특정 레벨의 리포트만 트래버스할 경우, 하위 구조가 없는 Orphan 커뮤니티 데이터의 가시성 상실
- Local Search를 통한 엔티티 벡터 매칭으로 계층 구조와 무관한 개별 데이터 접근 경로 확보
실천 포인트
1. Global Search 결과가 누락될 경우, 해당 엔티티가 속한 커뮤니티의 규모가 10개 미만인지 확인하십시오.
2. 계층적 구조의 맹점을 보완하기 위해 Global Search와 Local Search를 적절히 혼합한 하이브리드 쿼리 전략을 검토하십시오.
3. 매우 작은 규모의 핵심 도메인 지식이 포함된 경우, 강제로 클러스터 규모를 키우거나 수동으로 관계를 정의하십시오.