LLM 기반 Text-to-SQL의 82% 정확도 달성 및 Semantic Model을 통한 정밀도 개선

Database world trying to build natural language query systems again – this time with LLMs

Lindsay Clark2026년 4월 22일6분intermediate

AI 요약

Context

비즈니스 사용자의 SQL 숙련도 부족으로 인한 데이터 분석 병목 현상 지속. 기존 Natural Language Interface는 언어적 모호성과 스키마 매핑의 한계로 인해 실무 적용에 제약이 큼.

Technical Solution

Bedrock 및 Cortex 등 LLM 프레임워크를 활용한 Natural Language의 SQL 구문 변환 구조 설계
Business Term과 Database Schema를 연결하는 Semantic Model 도입으로 Join 및 Filter 생성의 정확도 향상
Natural Language를 Database Schema에 먼저 매핑한 후 SQL을 생성하는 2단계 파이프라인 구축
LLM의 토큰 생성 과정에서 불확실성(Uncertainty)을 감지하여 사용자에게 역질문하는 Human-in-the-loop 메커니즘 적용
LangChain 기반의 API 설계를 통한 NoSQL 환경의 Text-to-Query 확장 구현

Impact

BIRD-SQL 벤치마크 기준 GPT-4o 활용 시 실행 정확도 약 82% 달성 (전문가 수준 93% 대비 근접)

Key Takeaway

LLM의 단순 생성보다 Domain-specific Semantic Layer 구축이 쿼리 정확도 결정의 핵심이며, 구문적 정확성(Syntactic Correctness)과 의미적 정확성(Semantic Correctness)을 분리하여 검증하는 설계 전략이 필수적임.

실천 포인트

- LLM 생성 쿼리를 직접 실행하기 전 전문가의 검토 단계(Human-in-the-loop)를 포함한 워크플로우 설계 - 기업 내부 전용 용어집 및 스키마 정의서를 LLM이 참조할 수 있도록 Semantic Model로 정형화 - LLM의 생성 불확실성이 높은 지점에서 사용자 확인 절차를 거치는 인터랙티브 쿼리 인터페이스 검토

태그

#Text-to-SQL #Human-in-the-loop #Schema Mapping #LLM #Semantic Model

원문 읽기