피드로 돌아가기
GitHub BlogAI/ML
원문 읽기
분산 컨텍스트 레이어 기반 분석 에이전트로 쿼리 속도 3배 향상
How we built an internal data analytics agent
AI 요약
Context
GitHub 규모의 방대한 텔레메트리 데이터 모델과 복잡한 필터링 조건으로 인해 데이터 분석가의 개입 없는 Self-serve 분석 환경 구축에 한계 발생. 분석 대상 데이터의 Grain과 모델을 식별하고 쿼리를 검증하는 과정에서 발생하는 높은 진입 장벽을 해결하기 위한 설계 필요.
Technical Solution
- 데이터 성숙도(Bronze, Silver, Gold)에 따른 Federated Context Layer 구축으로 데이터 유형별 최적화된 메타데이터 제공
- MCP(Model Context Protocol) Server를 통해 런타임 시점에 필요한 컨텍스트를 동적으로 로드하는 구조 설계
- Markdown 기반의 표준 템플릿과 Context Agent를 도입하여 분산된 도메인 지식을 정형화된 포맷으로 자동 수집 및 정규화
- Kusto(최신 이벤트/탐색)와 Trino(복잡한 Join/이력 분석)를 병행 배치하고 질문 특성에 따라 엔진을 자동 스위칭하는 Query Engine 구현
- Ground-truth SQL과 테스트 케이스를 포함한 Offline Eval Framework를 통해 컨텍스트 변경 시 정확도와 Latency 회귀 테스트 수행
실천 포인트
1. 데이터 성숙도별로 메타데이터 관리 주체를 분리하여 Hub-and-Spoke 모델 적용
2. LLM 응답성 개선을 위해 비정형 문서를 정형화된 컨텍스트 포맷으로 변환하는 파이프라인 구축
3. 다중 쿼리 엔진 사용 시 사용자에게 선택권을 주는 대신 데이터 특성에 따른 자동 라우팅 로직 구현
4. 컨텍스트 변경 사항을 검증할 수 있는 정량적 벤치마킹 데이터셋 확보