피드로 돌아가기
Dev.toAI/ML
원문 읽기
GenAI를 데이터 파이프라인 내 Transformation Step으로 통합한 Fabric AI Functions
Fabric AI Functions Turn GenAI Into a Data Pipeline Step
AI 요약
Context
기존 GenAI 도입 방식은 데이터 플랫폼 외부에서 별도 스크립트로 모델을 호출한 후 결과를 다시 결합하는 파편화된 아키텍처 구조임. 이로 인해 데이터 거버넌스 공백이 발생하며 파이프라인 운용 효율성이 저하되는 한계점이 존재함.
Technical Solution
- GenAI 연산을 pandas 및 Spark DataFrame 내 Native Function으로 추상화하여 데이터 변환 단계에 직접 통합
- 모델 호출을 데이터 레이크하우스 및 노트북 워크플로우 내에 배치하여 데이터 이동 최소화 및 지연 시간 단축
- PDF, JPG, PNG 등 Multimodal Input 지원을 통한 비정형 데이터의 구조적 테이블 변환 프로세스 구축
- ai.embed 함수를 통한 데이터 파이프라인 내 Embedding 생성 및 RAG 준비 단계의 일원화
- 모델 공급자 및 설정을 플랫폼 레벨에서 관리하여 권한 제어 및 비용 추적 가능하도록 거버넌스 체계 마련
- AI 생성물을 원본과 분리된 별도 컬럼으로 저장하여 리뷰 및 검증이 가능한 Data Asset 형태로 관리
실천 포인트
1. AI 출력을 신뢰 기반의 자동 적용이 아닌 '리뷰 가능한 데이터 자산'으로 설계했는가?
2. 비정형 데이터의 정형화 단계를 별도 앱이 아닌 기존 ETL/ELT 파이프라인 내에 포함시켰는가?
3. Embedding 생성 및 갱신 주기를 데이터 거버넌스 정책에 따라 제어하고 있는가?
4. 사용 모델의 버전, 비용 책임 소재, 데이터 전송 권한이 플랫폼 설정으로 관리되는가?