600PB 데이터 탐색 효율화를 위한 AI Agent 'Kepler' 구축

Presentation: AI Agents to Make Sense of Data at OpenAI

Bonnie Xu2026년 6월 19일33분advanced

AI 요약

Context

7만 개 이상의 데이터셋과 일일 600PB 규모의 방대한 데이터 트래픽으로 인한 Table Discovery 비용 급증. 암호화 여부, Fraud Rate 보정 등 도메인 특화 Nuance 파악 실패 시 결과값이 수십 배 차이 나는 데이터 정합성 리스크 상존.

Technical Solution

데이터 플랫폼 전체 컨텍스트를 추상화하여 Slack, IDE, Web 등 다양한 인터페이스에서 접근 가능한 Kepler 서비스 설계
Chain of Thought 기반의 내적 지식 검색을 통해 최적의 Table Schema를 식별하고 SQL 쿼리를 자동 생성하는 워크플로우 구현
쿼리 실행 결과에 따른 임계값(Threshold) 자동 조정 및 반복적인 SQL 정제 과정을 통한 정밀 분석 루프 구축
Databricks(Catalog), Codex(Code), Airflow(Job) 등 분산된 데이터 소스를 단일 추상화 레이어로 통합하여 컨텍스트 스위칭 비용 제거
모델 회귀 방지를 위한 Evals 시스템 도입 및 다중 시그널 기반의 판단 로직을 통한 엣지 케이스 대응력 강화

실천 포인트

- 대규모 데이터 환경에서 Table Discovery 자동화를 위한 Metadata Context 주입 구조 검토 - 단순 쿼리 생성을 넘어 결과값에 따라 쿼리를 수정하는 Iterative Analysis 루프 설계 - 분산된 데이터 카탈로그와 파이프라인 정보를 통합하는 추상화 레이어(Abstraction Layer) 구축

태그

#SQL Automation #Chain-of-Thought #AI Agent #Table Discovery #Data Productivity

원문 읽기