피드로 돌아가기
토스 기술블로그AI/ML
원문 읽기
Skill 품질 관리를 위한 Rubric 설계와 시스템 구현
규칙-모델 분리형 30항목 Rubric 기반 Skill 품질 자동 검증 시스템 구축
AI 요약
Context
LLM 기반 코딩 에이전트용 Skill 배포 시 정적 분석 도구 부재로 인해 트리거 실패 및 형식 위반 결함이 누적됨. 특히 Description 기반의 호출 메커니즘 특성상 작성자가 인지하지 못하는 의미적 결함이 발생하여 실제 호출률이 저하되는 병목 지점 식별.
Technical Solution
- 결정적 결함과 의미적 결함의 판정 로직을 분리한 2단계 검증 파이프라인 설계
- 정규식, 카운트, AST 파싱을 활용한 17개 규칙 검사로 형식적 BLOCKER 즉시 차단
- LLM 기반 13개 모델 검사를 통해 트리거 적절성 및 범용성 등 의미적 품질 판정
- 규칙 검사 통과 시에만 모델 검사를 호출하는 Sequential 구조로 LLM API 비용 최적화
- 로컬 플러그인과 GitHub Actions 간 동일한 평가 스크립트 및 Rubric 공유를 통한 환경 일관성 확보
- 6개 섹션 30개 항목의 Rubric을 S~F 5단계 등급으로 압축하여 리뷰어의 인지 부하 감소
실천 포인트
1. LLM 산출물 검증 시 정규식으로 잡을 수 있는 형식 결함을 먼저 필터링하여 모델 비용을 절감하고 있는가
2. LLM이 호출 결정을 내리는 기준(예: Description)과 실제 실행 로직의 정보가 일치하는지 검증하는 프로세스가 있는가
3. 로컬 개발 환경과 CI/CD 파이프라인이 동일한 검증 스크립트를 공유하여 '환경 차이로 인한 실패'를 방지했는가