피드로 돌아가기
Dev.toAI/ML
원문 읽기
Local LLM과 Text-to-SQL 기반의 프라이버시 강화형 기술 자산 분석 시스템 구축
I Built a Private AI Assistant That Queries My Git History and Project Management Data — Using Only Local LLMs
AI 요약
Context
Git 히스토리와 프로젝트 관리 데이터가 여러 플랫폼에 분산되어 데이터 통합 조회가 어려웠던 상황. 일반적인 Vector RAG 방식은 정형 데이터의 정확한 쿼리 수행에 한계가 있어 데이터 무결성과 프라이버시를 동시에 확보할 수 있는 설계가 필요함.
Technical Solution
- 정형 데이터 특성을 고려하여 Vector Embedding 대신 Text-to-SQL 아키텍처를 채택한 결정
- SQLite 기반의 통합 데이터베이스를 구축하여 Git Log와 프로젝트 관리 API 데이터를 단일 저장소로 일원화
branch_task_map테이블을 설계하여 Git 브랜치와 프로젝트 작업 단위 간의 관계를 매핑한 Cross-referencing 구조 구현- LLM의 환각을 방지하기 위해 쿼리 생성 전 데이터베이스 내 키워드를 사전 검색하여 정확한 값을 주입하는 Auto-discovery 로직 적용
- 쿼리 결과가 0건일 경우 키워드 전략을 변경하여 재시도하는 Self-correcting 쿼리 메커니즘 도입
- Ollama 기반의 qwen2.5-coder:7b 모델을 로컬 환경에 배포하여 데이터 외부 유출을 원천 차단한 폐쇄형 파이프라인 구축
실천 포인트
- 정형 데이터 분석 시 Vector RAG보다 Text-to-SQL 방식의 정확도 및 효율성 검토 - LLM에 스키마와 샘플 데이터를 함께 제공하는 Few-shot 프롬프팅 적용 - LLM 생성 쿼리의 정확도를 높이기 위해 사전 키워드 추출 및 값 매칭 단계 추가 - 데이터 보안이 필수적인 도메인에서 Local LLM 및 로컬 DB 조합의 실효성 검증