피드로 돌아가기
Dev.toAI/ML
원문 읽기
WMA 기반 5단계 Classifier로 748개 데이터셋을 통합한 MCP 게이트웨이
CHE MCP — Building Argentina's First National MCP Ecosystem: 5-Stage Classifier, WMA Online Learning, 748 Datasets
AI 요약
Context
다양한 국가 데이터 소스를 개별 MCP 서버로 설치해야 하는 파편화된 환경의 불편함 발생. 자연어 쿼리를 통해 수십 개의 공식 데이터 소스를 단일 엔드포인트로 통합 제공하는 지능형 게이트웨이 필요성 증대.
Technical Solution
- Keyword Matching 및 WMA 기반의 5단계 계층적 라우팅 구조를 통한 쿼리 처리 효율화
- Weighted Majority Algorithm(WMA) 도입으로 쿼리 성공 여부에 따라 가중치를 실시간 조정하는 Online Learning 시스템 구현
- all-MiniLM-L6-v2 임베딩과 Jaccard Fallback을 결합한 시맨틱 검색으로 검색 정확도 보완
- DuckDB와 Zstd 압축 Parquet 파일을 활용하여 3.92GB의 CSV 데이터를 404MB로 최적화한 Columnar Storage 설계
- NL-to-SQL 변환 시 SQL Injection Guardrails 및 Read-only 강제를 통한 보안 계층 구축
- 3-tier Cache와 Circuit Breaker, Request Collapsing 패턴을 적용한 시스템 회복탄력성 확보
실천 포인트
1. 대규모 데이터셋 통합 시 Columnar Storage(DuckDB, Parquet) 검토
2. 라우팅 로직에 Online Learning(WMA 등)을 도입하여 런타임 최적화 가능성 확인
3. LLM Fallback 전 단계에 다층적 필터링 계층을 두어 비용 및 지연시간 절감