피드로 돌아가기
Fabric AI Functions Turn GenAI Into a Data Pipeline Step
Dev.toDev.to
AI/ML

GenAI를 데이터 파이프라인 내 Transformation Step으로 통합한 Fabric AI Functions

Fabric AI Functions Turn GenAI Into a Data Pipeline Step

Shai Karmani2026년 5월 26일8intermediate

Context

기존 GenAI 도입 방식은 데이터 플랫폼 외부에서 별도 스크립트로 모델을 호출한 후 결과를 다시 결합하는 파편화된 아키텍처 구조임. 이로 인해 데이터 거버넌스 공백이 발생하며 파이프라인 운용 효율성이 저하되는 한계점이 존재함.

Technical Solution

  • GenAI 연산을 pandas 및 Spark DataFrame 내 Native Function으로 추상화하여 데이터 변환 단계에 직접 통합
  • 모델 호출을 데이터 레이크하우스 및 노트북 워크플로우 내에 배치하여 데이터 이동 최소화 및 지연 시간 단축
  • PDF, JPG, PNG 등 Multimodal Input 지원을 통한 비정형 데이터의 구조적 테이블 변환 프로세스 구축
  • ai.embed 함수를 통한 데이터 파이프라인 내 Embedding 생성 및 RAG 준비 단계의 일원화
  • 모델 공급자 및 설정을 플랫폼 레벨에서 관리하여 권한 제어 및 비용 추적 가능하도록 거버넌스 체계 마련
  • AI 생성물을 원본과 분리된 별도 컬럼으로 저장하여 리뷰 및 검증이 가능한 Data Asset 형태로 관리

1. AI 출력을 신뢰 기반의 자동 적용이 아닌 '리뷰 가능한 데이터 자산'으로 설계했는가?

2. 비정형 데이터의 정형화 단계를 별도 앱이 아닌 기존 ETL/ELT 파이프라인 내에 포함시켰는가?

3. Embedding 생성 및 갱신 주기를 데이터 거버넌스 정책에 따라 제어하고 있는가?

4. 사용 모델의 버전, 비용 책임 소재, 데이터 전송 권한이 플랫폼 설정으로 관리되는가?

원문 읽기