피드로 돌아가기
Dev.toAI/ML
원문 읽기
AI Agent 기반의 자동화된 Markdown 추출 및 Wiki 생성 파이프라인 구축
How I use pluckmd to read blogs with an AI agent
AI 요약
Context
LLM 기반 학습 루프 구현을 위해 웹 콘텐츠의 Markdown 변환이 필요했으나, 사이트별 설정 요구와 불안정한 파싱 로직으로 인해 데이터 수집 단계에서 병목 발생.
Technical Solution
- 사이트별 개별 설정 없이 범용적으로 동작하는 Heuristics 기반의 콘텐츠 추출 엔진 설계
- JavaScript 무거운 페이지 대응을 위해 정적 분석과 Real Browser 렌더링을 자동 전환하는 하이브리드 렌더링 전략 채택
- 세션 유지 기능을 통한 Login-wall 콘텐츠 접근 및 Browser Extension을 활용한 Active Tab 직접 읽기 방식 구현
- CLI를 Agent의 Skill로 추상화하여 '추출-인덱싱-시각화'로 이어지는 LLM 오케스트레이션 구조 설계
- 추출 규칙 생성 실패 시 LLM이 페이지 구조를 분석하여 규칙을 동적으로 생성하는 Fallback 메커니즘 도입
실천 포인트
1. 웹 스크래핑 도구 설계 시 정적 파싱과 동적 렌더링 간의 자동 스위칭 로직 검토
2. 사용자 인증이 필요한 데이터 수집을 위해 세션 유지 및 브라우저 컨텍스트 공유 방식 고려
3. 단순 CLI 도구를 AI Agent의 Skill로 정의하여 복잡한 워크플로우를 자연어 명령으로 단순화