피드로 돌아가기
We fed meeting minutes to AI without structure — and lost 70% of the data we needed for decisions
Dev.toDev.to
AI/ML

Schema 기반 구조화 추출로 데이터 유실 82% 방지 및 정보 밀도 5.5배 향상

We fed meeting minutes to AI without structure — and lost 70% of the data we needed for decisions

Kozo-KI2026년 5월 13일6intermediate

Context

LLM 기반의 단순 요약 방식은 모델의 임의적 판단으로 인한 정보 압축과 데이터 누락이 발생함. 특히 엔터프라이즈 환경에서 Copilot과 같은 도구에 의존한 비구조적 데이터 처리는 일관성 없는 포맷과 추적 불가능한 데이터 손실이라는 한계를 지님.

Technical Solution

  • Schema-first Extraction: JSON 기반의 사전 정의된 스키마(Task, Risk, Request)를 통해 LLM의 임의 요약을 방지하고 데이터 추출의 일관성 확보
  • Decoupled Pipeline: LLM의 생성 기능과 데이터 구조화 기능을 분리하여 LDX hub StructFlow API를 통한 정밀 추출 단계 구축
  • Automated Orchestration: Power Automate를 활용하여 SharePoint 내 파일 배치 처리와 API 폴링(3초 주기) 로직 구현
  • Static Visualization: 추출된 구조화 데이터를 Chart.js 기반의 정적 HTML 파일로 생성하여 SharePoint에 저장하는 렌더링 파이프라인 설계
  • Deterministic Output: LLM의 확률적 응답을 구조적 데이터로 변환하여 시계열 분석이 가능한 정형 데이터셋으로 전환

1. LLM 출력값의 정합성 검증을 위해 사전 정의된 JSON Schema 도입 여부 확인

2. 단순 채팅 인터페이스 대신 API 기반의 데이터 추출 파이프라인 구축 검토

3. 요약 결과물에서 '누락된 정보'를 식별할 수 있는 비교 검증 프로세스 설계

4. 시계열 분석이 필요한 경우 매번 변경되는 LLM 응답 포맷을 정형 데이터로 변환하는 중간 계층 배치

원문 읽기