피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Show GN: ManyPerson - 통계청 MDIS 기반 한국 AI 페르소나 여론 시뮬레이터
MDIS 가계금융 데이터 기반 4.1만 명 AI 페르소나 시뮬레이션 시스템 구축
AI 요약
Context
단일 LLM에 의존한 여론 시뮬레이션 시 발생하는 평균치 편향 및 인구통계적 다양성 결여 문제 해결 필요. 실제 사회 구조를 반영하지 못하는 '그럴듯한 단일 답변'의 한계를 극복하기 위한 구조적 접근 요구.
Technical Solution
- 통계청 MDIS 가구마스터 및 가구원 CSV 조인을 통한 4.1만 명 규모의 기초 페르소나 데이터셋 구성
- 가구 총소득을 가구 구성원 상태(가구주, 배우자, 은퇴자 등)에 따라 휴리스틱하게 배분하는 개인 소득 추정 로직 적용
- 재무 데이터와 서사의 불일치 해결을 위한 Gemini 기반 2단계(Phase 2) 보정 파이프라인 설계
- 대규모 페르소나 속성의 유연한 관리를 위한 PostgreSQL JSONB 스토리지 채택
- Pod 장애 시 데이터 유실 방지 및 연속성 보장을 위한 스트리밍 업데이트 및 마커 기반 재시작 구조 구현
- 통계청 가중값(weight)을 적용한 집계 로직을 통해 단순 응답 수 합산이 아닌 인구 비례 가중 통계 산출
Impact
- 가구마스터 34,880건 및 가구원 69,929건 기반의 4.1만 명 정밀 페르소나 풀 확보
실천 포인트
- LLM 합성 데이터 생성 시 기초 통계 데이터와 생성된 서사 간의 정합성을 검증하는 Multi-phase 파이프라인 검토 - 비정형 확장 속성이 많은 엔티티 설계 시 JSONB를 활용한 스키마 유연성 확보 - 대량의 LLM API 호출 작업 시 마커 기반의 상태 관리와 스트리밍 업데이트를 통한 Fault Tolerance 설계