NVIDIA가 NeMo Data Designer를 활용해 인도의 인구통계·지역·문화 분포를 반영한 2,100만 개의 합성 페르소나 데이터셋(Nemotron-Personas-India) 공개

Nemotron-Personas-India: Synthesized Data for Sovereign AI

2025년 10월 13일10분intermediate

AI 요약

Context

인도의 7억 이상 인터넷 사용자와 수백 개 언어·문자 체계에도 불구하고, 기존 공개 데이터셋은 서방 규범과 영어 중심으로 편향되어 있어 인도의 다언어·다문화 환경에서 AI 채택을 제한하고 있다. 코드-스위칭(영어-힌디어), 지역 직업 분류, 문화적 맥락 이해 등에서 AI 모델의 성능 저하가 발생하고 있다.

Technical Solution

NeMo Data Designer 마이크로서비스 활용: Jinja 템플릿, Pydantic 검증, 구조화된 출력, 자동 재시도 기능으로 대규모 합성 데이터 생성 파이프라인 구축
확률적 그래프 모델(Probabilistic Graphical Model, Apache-2.0)과 GPT-OSS-120B 활용: 2011년 인도 인구조사 통계와 선거인명부 데이터에 근거한 통계적 정렬과 영어·힌디어(데바나가리, 라틴 문자) 자연어 생성
27개 필드 레코드 설계: 나이, 성별, 교육, 직업, 주(state), 지구(district), 가족 구조, 지역 축제, 결혼 전통, 디지털 접근성, 다언어 능력(1·2·3언어) 등 인도 사회의 다양성 반영
3,000개 이상의 직업 분류: 공식 부문, 비공식 부문(농업, 재봉, 노점상 등), 전통 산업 포함
프라이버시 설계: 합성 데이터로만 구성되어 실명 미포함, 재식별 위험 제거, CC BY 4.0 라이선스로 상업·비상업적 사용 허가

Impact

데이터셋 규모: 2,100만 개 페르소나(300만 레코드 × 7개 페르소나), 총 77억 토큰(영어 10억 토큰, 힌디어 데바나가리 47억 토큰, 힌디어 라틴 20억 토큰)
언어 커버리지: 영어와 힌디어 모두 데바나가리·라틴 문자 지원
지리적 커버리지: 인도 36개 주(states)와 640개 지구(districts) 모두 포함
고유명: 약 56만 개의 고유한 성명(인도의 언어 다양성 반영)

Key Takeaway

합성 데이터 생성을 통해 실제 인구통계 분포와 문화적 맥락을 반영하면서도 프라이버시 규제 준수와 개인정보 보호를 동시에 달성할 수 있으며, 이는 다언어·다문화 지역의 주권 AI 모델 개발(Sovereign AI)의 기반이 된다.

실천 포인트

다언어 지역에서 AI 모델을 개발하는 엔지니어 팀이 기존 서방 중심 데이터셋 대신 NeMo Data Designer와 같은 합성 데이터 생성 플랫폼을 활용하고 공식 인구통계·노동통계를 통계적 기반으로 활용하면, 지역별 직업 분류·코드-스위칭·문화적 뉘앙스를 정확히 캡처한 미세 조정(fine-tuning) 데이터를 구축할 수 있어 모델 붕괴(model collapse)를 방지하고 지역 사용성을 향상시킬 수 있다.

태그

#Data Privacy #Multilingual AI #NeMo Data Designer #Sovereign AI #Synthetic Data Generation

원문 읽기