피드로 돌아가기
InfoQAI/ML
원문 읽기
600PB 데이터 탐색 효율화를 위한 AI Agent 'Kepler' 구축
Presentation: AI Agents to Make Sense of Data at OpenAI
AI 요약
Context
7만 개 이상의 데이터셋과 일일 600PB 규모의 방대한 데이터 트래픽으로 인한 Table Discovery 비용 급증. 암호화 여부, Fraud Rate 보정 등 도메인 특화 Nuance 파악 실패 시 결과값이 수십 배 차이 나는 데이터 정합성 리스크 상존.
Technical Solution
- 데이터 플랫폼 전체 컨텍스트를 추상화하여 Slack, IDE, Web 등 다양한 인터페이스에서 접근 가능한 Kepler 서비스 설계
- Chain of Thought 기반의 내적 지식 검색을 통해 최적의 Table Schema를 식별하고 SQL 쿼리를 자동 생성하는 워크플로우 구현
- 쿼리 실행 결과에 따른 임계값(Threshold) 자동 조정 및 반복적인 SQL 정제 과정을 통한 정밀 분석 루프 구축
- Databricks(Catalog), Codex(Code), Airflow(Job) 등 분산된 데이터 소스를 단일 추상화 레이어로 통합하여 컨텍스트 스위칭 비용 제거
- 모델 회귀 방지를 위한 Evals 시스템 도입 및 다중 시그널 기반의 판단 로직을 통한 엣지 케이스 대응력 강화
실천 포인트
- 대규모 데이터 환경에서 Table Discovery 자동화를 위한 Metadata Context 주입 구조 검토 - 단순 쿼리 생성을 넘어 결과값에 따라 쿼리를 수정하는 Iterative Analysis 루프 설계 - 분산된 데이터 카탈로그와 파이프라인 정보를 통합하는 추상화 레이어(Abstraction Layer) 구축