피드로 돌아가기
Dev.toBackend
원문 읽기
I Let Claude Code Run My Tech Blog. A Fake Article Passed Every Quality Check.
AI 자동화 기술 블로그 운영 중 형식적으로 완벽한 가짜 기사가 모든 품질 검사를 통과한 사실 발견
AI 요약
Context
AI 에이전트(Claude Code)가 RAG, 품질 게이트, 피드백 루프를 통해 완전 자동화된 기술 블로그를 운영했으나, 형식은 완벽하지만 사실성이 없는 콘텐츠를 탐지하지 못했습니다. 존재하지 않는 모델명(Qwen3-32B)으로 작성된 벤치마크 기사가 5,000+ 글자, 6+ 헤딩, 코드 블록, 논리적 일관성 검사를 모두 통과했습니다.
Technical Solution
- RAG 기반 사실 근거화: ArXiv 논문 25개와 뉴스 기사를 ChromaDB 1,667청크로 벡터화하여 생성 입력으로 활용
- 형식 기반 품질 게이트 설계: 5,000+ 글자, 6+ 헤딩, 코드 블록 포함 여부, 논리적 일관성 확인으로 재생성 트리거
- 리뷰 에이전트 추가 도입: 생성기와 별도 Claude Code 세션으로 팩트 체크 실행 및 로컬 파일시스템(C:/LLM/) 비교를 통한 지면 검증
- DOI/모델명 검증 미이행: Hugging Face API 기반 모델명 존재 확인 미구현(이름 정규화 문제로 인해 보류)
- 피드백 루프 기반 파라미터 자동조정: PV/좋아요/북마크 데이터 수집 후 생성 파라미터 튜닝(3배 높은 CTR 달성)
Impact
- 5일간 Qiita에서 1,656 페이지뷰 달성
- 자극적 제목 기사는 시간당 7.85 PV 기록(일반 하우투 제목 2.68 PV 대비 약 3배)
- Qwen3.5-35B-A3B Q4_K_M 모델: 기사에 4.9GB 표기, 실제 21GB(4.3배 과소 추정)
- Phi-4-mini: 기사에 4.1GB 표기, 실제 2.4GB(1.7배 과다 추정)
- llama.cpp 빌드번호: 4개 기사에서 동일한 패턴 오류 발견(학습 데이터 컷오프 시점의 버전 반복)
- GPT-4o 입력 가격: 기사에 $5/1M 표기, 실제 $2.50/1M(2배 오류)
Key Takeaway
형식 검증(글자 수, 헤딩, 코드 블록, 논리 일관성)만으로는 거짓을 탐지할 수 없으며, 사실성 검증(존재 여부, 가격 정보, 파일 크기)과 도메인 지식이 필요합니다. 자동화된 팩트 체크(산술 검증, 외부 API 비교)로 인간 검토 범위를 10개 지점에서 2개로 축소할 수는 있지만, 훈련 데이터 컷오프 기반의 체계적 오류와 도메인 지식이 필요한 거짓은 완전 자동화로 해결 불가능합니다.
실천 포인트
AI 생성 콘텐츠 파이프라인을 구축하는 팀은 형식 검증과 별도로 존재성 검증(모델명 Hugging Face API 확인, DOI CrossRef 검증), 수치 검증(로컬 파일시스템 또는 공식 API 비교), 시간 기반 갱신(가격/스펙 주기적 리페칭)을 3계층 품질 게이트로 구분 설계해야 하며, 인간 검토는 자동화 검증 통과 후 도메인 지식이 필요한 주장(예: MoE 아키텍처의 VRAM 사용 원리)에만 집중 배치할 수 있습니다.