피드로 돌아가기
Encoding Your Domain Expert: The Context Layer Behind Spotify's Data Assistant
Spotify EngineeringSpotify Engineering
AI/ML

7만 개 데이터셋의 복잡도를 해결한 도메인 전문가 중심 Context Layer 설계

Encoding Your Domain Expert: The Context Layer Behind Spotify's Data Assistant

Spotify Engineering2026년 6월 10일7advanced

Context

70,000개 이상의 데이터셋과 페타바이트급 데이터 규모로 인해 단순 Schema 제공만으로는 LLM의 정확한 SQL 생성에 한계 발생. Context Window의 물리적 제약과 단순 데이터 타입만으로는 파악 불가능한 비즈니스 로직 및 도메인 지식의 부재가 주요 병목 지점으로 작용.

Technical Solution

  • 도메인별 지식 파편화를 해결하기 위해 전문가가 관리하는 Cluster 단위의 Context Layer 도입
  • Schema 외에 Column Cardinality, Value Sample, Partition 구조를 포함하여 LLM의 WHERE 절 생성 정확도 향상
  • 단순 Query History 기반의 자동 생성 대신 전문가 검수를 거친 Canonical Pair만 채택하여 Hallucination 억제
  • ReAct Loop 기반의 추론-실행 구조를 통해 도구 호출 결과에 따른 단계적 쿼리 수정 및 결과 도출
  • Schema 변경 및 데이터 품질 저하를 감지하는 Health Score 메트릭을 통해 Context의 최신성 유지
  • Slack, MCP Server, Web UI 등 다양한 인터페이스를 통해 데이터 접근성을 확장한 멀티 서페이스 아키텍처 설계

1. LLM에게 Schema만 제공하지 말고 실제 데이터의 분포(Cardinality, Sample)를 함께 제공하고 있는가?

2. 자동 생성된 Training/Few-shot 데이터 중 노이즈를 제거할 도메인 전문가의 검수 프로세스가 존재하는가?

3. 데이터 모델 변경 시 LLM의 Context가 즉시 업데이트되거나 성능 저하를 감지하는 모니터링 체계가 있는가?

4. 결과값만 제공하는 것이 아니라 ReAct와 같은 추론 과정을 통해 사용자에게 근거를 제시하는가?

원문 읽기