피드로 돌아가기
Skill 품질 관리를 위한 Rubric 설계와 시스템 구현
토스 기술블로그토스 기술블로그
AI/ML

Skill 품질 관리를 위한 Rubric 설계와 시스템 구현

규칙-모델 분리형 30항목 Rubric 기반 Skill 품질 자동 검증 시스템 구축

2026년 6월 8일21intermediate

Context

LLM 기반 코딩 에이전트용 Skill 배포 시 정적 분석 도구 부재로 인해 트리거 실패 및 형식 위반 결함이 누적됨. 특히 Description 기반의 호출 메커니즘 특성상 작성자가 인지하지 못하는 의미적 결함이 발생하여 실제 호출률이 저하되는 병목 지점 식별.

Technical Solution

  • 결정적 결함과 의미적 결함의 판정 로직을 분리한 2단계 검증 파이프라인 설계
  • 정규식, 카운트, AST 파싱을 활용한 17개 규칙 검사로 형식적 BLOCKER 즉시 차단
  • LLM 기반 13개 모델 검사를 통해 트리거 적절성 및 범용성 등 의미적 품질 판정
  • 규칙 검사 통과 시에만 모델 검사를 호출하는 Sequential 구조로 LLM API 비용 최적화
  • 로컬 플러그인과 GitHub Actions 간 동일한 평가 스크립트 및 Rubric 공유를 통한 환경 일관성 확보
  • 6개 섹션 30개 항목의 Rubric을 S~F 5단계 등급으로 압축하여 리뷰어의 인지 부하 감소

1. LLM 산출물 검증 시 정규식으로 잡을 수 있는 형식 결함을 먼저 필터링하여 모델 비용을 절감하고 있는가

2. LLM이 호출 결정을 내리는 기준(예: Description)과 실제 실행 로직의 정보가 일치하는지 검증하는 프로세스가 있는가

3. 로컬 개발 환경과 CI/CD 파이프라인이 동일한 검증 스크립트를 공유하여 '환경 차이로 인한 실패'를 방지했는가

원문 읽기