피드로 돌아가기
Dev.toAI/ML
원문 읽기
Domain Stopwords 기반 휴리스틱으로 Claude Code 아티팩트 중복 79% 제거
I audited my own Claude Code setup and found 21 issues in 72 artifacts
AI 요약
Context
Claude Code 사용 중 작업별 Agent 생성으로 인한 아티팩트 산재 및 관리 부재 발생. 명확한 감사 체계 없는 상태에서 동일 기능 Agent 중복 생성 및 Trigger 충돌로 인한 시스템 비효율 증대.
Technical Solution
- SHA-256 해시 기반의 Exact Duplicate 검출 로직 구현
- Tokenized Body 및 Description에 Jaccard Similarity(≥ 0.60)를 적용한 Semantic Duplicate 탐지
- 중복 Trigger Token 분석을 통한 Agent 간 활성화 경쟁 상태(Trigger Collisions) 식별
- 프로젝트 범위 아티팩트가 글로벌 설정을 덮어쓰는 Shadowing 구조 감지
- 고빈도 범용 단어 제거를 위한 Domain Stopwords 리스트 도입 및 5자 미만 토큰 제외 처리
- 탐색 중심의 Graph View에서 결정 중심의 Triage Dashboard로 UX 패러다임 전환
Impact
- Domain Stopwords 적용 전 약 100개의 False-positive 발생건을 21개의 Actionable Issue로 정밀화
- 72개의 아티팩트 중 21개의 이슈(Medium 2, Low 19)를 식별하여 설정 최적화 기반 마련
Key Takeaway
단순 유사도 측정보다 도메인 특화 Stopwords 제거가 노이즈 감소 및 탐지 정확도 향상에 결정적 영향 부여. 또한, 시각적 화려함보다 사용자의 최종 목적(Triage)에 맞춘 UI 설계가 도구의 실효성을 결정함.
실천 포인트
- 유사도 기반 분석 시스템 설계 시 도메인별 고빈도 무의미 단어(Stopwords) 리스트 정의 여부 검토 - 정밀도 향상을 위해 최소 토큰 길이 제한(예: 5자 이상) 설정 적용 고려 - 데이터 탐색(Exploration)과 의사결정(Triage) 단계의 UI 요구사항을 분리하여 설계