피드로 돌아가기
Build a Production‑Ready SQL Evaluation Engine for LLMs
Dev.toDev.to
AI/ML

엔지니어가 결정론적 검증 계층과 AI Judge를 결합한 이중 구조 SQL 평가 프레임워크를 구축하여 LLM 쿼리 평가 비용을 절감하면서 진단 품질을 높였다

Build a Production‑Ready SQL Evaluation Engine for LLMs

kasi viswanath vandanapu2026년 3월 30일6intermediate

Context

수백 개의 사용자 쿼리가 쌓이면서 단순히 결과만 비교하는 기존 방식은 속도가 느리고 실패 원인을 파악할 수 없는 한계에 도달했다. 정확도만 확인하고 왜 틀렸는지를 알 수 없어 모델 개선에 필요한 피드백을 얻을 수 없었다.

Technical Solution

  • Deterministic Evaluator → 행 개수, 컬럼 커버리지, AST 구조를 0.5초 이내에 검증하는 빠른 필터 계층 제공
  • AI Judge → 구조화된 JSON으로 미비 요소, 근본 원인, 수정 SQL 스니펫을 반환하는 LLM 기반 심층 검토 수행
  • 점수가 0.92 이상이면 AI 단계를 건너뛰어 전체 비용 절감
  • asyncio Semaphore로 동시성 제어하며 대량 쿼리 배치 처리
  • sqlglot로 SQL AST 파싱, litellm으로 다양한 LLM 호출 추상화

Impact

AI Judge 호출이 필요한 케이스를 80% 이상 감소시켜 LLM 토큰 비용 절감

Key Takeaway

비용이 비싼 AI Judge 앞에 결정론적 필터 계층을 두면 진단 품질을 유지하면서 전체 시스템의 비용 대비 성능을 크게 높일 수 있다


Text-to-SQL 파이프라인에서 빠른 결정론적 검증 계층으로 대부분의 실패를 걸러낸 뒤, 필요한 경우에만 AI Judge를 호출하는 2 계층 아키텍처를 적용하면 LLM 토큰 비용을 절감하면서도 구체적인 수정 피드백을 얻을 수 있다

원문 읽기