피드로 돌아가기
How I use pluckmd to read blogs with an AI agent
Dev.toDev.to
AI/ML

AI Agent 기반의 자동화된 Markdown 추출 및 Wiki 생성 파이프라인 구축

How I use pluckmd to read blogs with an AI agent

Taisei2026년 6월 2일3intermediate

Context

LLM 기반 학습 루프 구현을 위해 웹 콘텐츠의 Markdown 변환이 필요했으나, 사이트별 설정 요구와 불안정한 파싱 로직으로 인해 데이터 수집 단계에서 병목 발생.

Technical Solution

  • 사이트별 개별 설정 없이 범용적으로 동작하는 Heuristics 기반의 콘텐츠 추출 엔진 설계
  • JavaScript 무거운 페이지 대응을 위해 정적 분석과 Real Browser 렌더링을 자동 전환하는 하이브리드 렌더링 전략 채택
  • 세션 유지 기능을 통한 Login-wall 콘텐츠 접근 및 Browser Extension을 활용한 Active Tab 직접 읽기 방식 구현
  • CLI를 Agent의 Skill로 추상화하여 '추출-인덱싱-시각화'로 이어지는 LLM 오케스트레이션 구조 설계
  • 추출 규칙 생성 실패 시 LLM이 페이지 구조를 분석하여 규칙을 동적으로 생성하는 Fallback 메커니즘 도입

1. 웹 스크래핑 도구 설계 시 정적 파싱과 동적 렌더링 간의 자동 스위칭 로직 검토

2. 사용자 인증이 필요한 데이터 수집을 위해 세션 유지 및 브라우저 컨텍스트 공유 방식 고려

3. 단순 CLI 도구를 AI Agent의 Skill로 정의하여 복잡한 워크플로우를 자연어 명령으로 단순화

원문 읽기