피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 기반 정밀 Taxonomy 설계를 통한 AI 도구 카탈로그 데이터 정확도 50% 개선
I audited my AI tool catalog with Claude — turns out 50% was mis-categorized
AI 요약
Context
사용자 목표에 따라 AI 도구를 추천하는 AI Compass 시스템에서 카테고리 태그 기반의 단순 필터링 구조 채택. 데이터 스키마는 유효했으나 실제 매핑 값의 오류로 인해 음악 생성 도구가 코딩 카테고리로 추천되는 등 데이터 무결성 결여 문제가 발생함.
Technical Solution
- 단기적 해결책으로 Category 일치 여부와 Keyword 기반 검증을 병행하는 Defense-in-depth Veto 로직 설계
- LLM의 Hallucination 방지를 위해 외부 지식 추론을 차단하고 내부 Metadata(Name, Description, Tags)만 참조하는 Constraint 기반 프롬프팅 적용
- 모호한 기준을 제거하기 위해 8개 카테고리의 정의 및 Tiebreaker 룰을 명시한 Explicit Taxonomy 사전 정의
- 직접적인 데이터 수정 대신 '현재-제안-신뢰도-근거'를 포함한 JSON Proposal 파일 생성 후 Human-in-the-loop 검토 프로세스 구축
- 데이터 부족으로 인한 분류 불가 항목을 별도로 Flagging 하여 휴먼 리뷰 대상과 구분하는 처리 로직 구현
실천 포인트
- LLM 기반 데이터 정제 시 외부 지식 추론을 제한하는 제약 조건을 명시했는가 - 정교한 Taxonomy 정의서가 LLM 프롬프트에 직접 포함되어 있는가 - 데이터 직접 수정 대신 Proposal 단계와 Human-in-the-loop 검토 과정을 거치는가 - 단순 스키마 체크를 넘어 '특정 입력에 대해 예상 도구가 출력되는가'를 검증하는 테스트 케이스가 존재하는가