피드로 돌아가기
Dev.toAI/ML
원문 읽기
WordPress HTML 콘텐츠를 OKF 기반 Markdown Knowledge Graph로 변환
Turning WordPress Into an Open Knowledge Graph with OKF
AI 요약
Context
웹 페이지 중심의 CMS 구조로 인한 AI 시스템의 지식 추출 한계 발생. HTML 내에 파편화된 데이터 관계망을 구조화된 Knowledge Graph로 변환하여 AI Ingestion 효율을 높이는 아키텍처 요구됨.
Technical Solution
- OKF(Open Knowledge Format) 사양을 채택한 Markdown 기반의 경량 Knowledge Graph 설계
- HTML 콘텐츠를 Markdown으로 변환하여 Human-readable 및 AI-friendly한 데이터 포맷 확보
- WordPress 내부의 Pages, Posts, Custom Post Types, Taxonomies를 개념(Concept) 단위로 매핑
- 내부 링크(Internal Links)를 관계(Relationship)로 재정의하여 데이터 간 연결성 구축
- Incremental Synchronization 로직을 통한 변경 사항 중심의 효율적 데이터 동기화 구현
- Git-friendly한 저장 구조를 통해 버전 관리 및 벤더 종속성 제거
실천 포인트
1. AI 학습용 데이터셋 구축 시 HTML 파싱 대신 Markdown 기반의 구조화된 포맷(OKF 등) 검토
2. 관계형 데이터의 영속성을 위해 Graph DB 도입 전 Markdown-based File System 기반의 Prototype 설계 고려
3. CMS 데이터를 외부 AI 시스템으로 전송할 때 Incremental Sync 체계를 구축하여 오버헤드 최소화