피드로 돌아가기
Shipping a Local LLM API with FastAPI and Ollama
Dev.toDev.to
AI/ML

3B Qwen2.5-Coder 기반 $0 비용의 Production SQL API 구축

Shipping a Local LLM API with FastAPI and Ollama

Nur Ahmad2026년 6월 24일13intermediate

Context

대규모 120B 파이프라인의 높은 추론 비용과 복잡성을 해결하기 위한 경량화 모델 필요성 증대. 단순 모델 개발을 넘어 실제 서비스 가능한 API 형태로 전환하여 접근성을 확보하려는 목적의 프로젝트임.

Technical Solution

  • QLoRA Fine-tuning을 통한 120B 모델의 지식을 3B 모델로 증류하여 CPU 환경 내 최적 추론 구조 설계
  • FastAPI와 Ollama를 활용한 2-Container 아키텍처로 추론 엔진과 API 게이트웨이의 물리적 분리
  • 5-layer Safety Model을 도입하여 생성된 SQL의 위험성을 검증하고 DROP TABLE 등의 파괴적 쿼리 실행을 원천 차단
  • SQLite Schema Introspection을 통해 DB 메타데이터를 동적으로 추출하고 모델 프롬프트에 주입하는 메커니즘 구현
  • LangChain 등 무거운 오케스트레이터 없이 단순 HTTP 통신 구조를 채택하여 런타임 오버헤드 최소화

Impact

  • 3B 모델 기준 In-domain Accuracy 90% 및 Spider 벤치마크 55.5% 달성
  • CPU 전용 $5 VPS 환경에서 4-table JOIN 포함 복잡 쿼리를 31.7초 내에 처리
  • 추론 및 학습 비용 $0 달성 및 GGUF q8_0 양자화 모델(3.3 GB)을 통한 메모리 효율 극대화

Key Takeaway

특정 도메인 지식이 학습된 소형 모델(SLM)은 적절한 Safety Layer와 결합될 때 고가의 LLM 없이도 실무 수준의 SQL 생성 능력을 제공함.


1. 도메인 특화 쿼리가 반복되는 경우 거대 모델 대신 QLoRA 기반 SLM 증류 검토

2. LLM 생성 SQL 실행 시 반드시 Read-only 권한 부여 및 다층적 구문 검증 레이어 구축

3. 추론 지연 시간 단축을 위해 전체 스키마가 아닌 관련 테이블만 주입하는 Schema RAG 도입 고려

원문 읽기