Nemotron-Personas-Japan: ソブリン AI のための合成データセット

NVIDIA가 NeMo Data Designer로 600만 건의 일본 문화 기반 합성 페르소나 데이터셋을 생성해 지역 맞춤형 AI 개발 장벽 제거

2025년 9월 26일9분intermediate

AI 요약

Context

일본을 포함한 지역 AI 개발자들은 영어 중심의 훈련 데이터에 의존하면서 모국어로 고품질 데이터를 확보하기 어려웠다. 개인 통계 데이터를 활용하지 않고도 일본 사회의 문화적 뉘앙스를 정확히 반영한 AI를 구축하는 것이 거의 불가능했다.

Technical Solution

NeMo Data Designer 마이크로서비스로 합성 데이터 생성 파이프라인 구성: Jinja 템플릿, Pydantic 검증, 구조화 출력, 자동 재시도 기능 포함
확률적 그래픽 모델(Apache-2.0)과 GPT-OSS-120B를 결합하여 통계 기반 생성과 일본어 자연스러운 문장 생성 구현
100만 개 레코드당 6개 페르소나(총 600만 건)로 구성하되, 레코드당 22개 항목(6개 페르소나 항목 + 16개 통계 기반 컨텍스트 항목) 정의
일본 공식 인구통계·노동통계 기반으로 1,500개 이상 직종 카테고리, 95만 개의 고유 이름 데이터 포함
개인식별정보(PII) 제거 설계: 실제 인물과 무관한 완전 인공 생성 페르소나를 통해 PIPA 규정 준수
CC BY 4.0 라이센스로 상용·비상용 구분 없이 공개

Impact

총 14억 토큰 규모 데이터셋 중 8억 5,000만 토큰이 페르소나 관련 정보로 구성되었다.

Key Takeaway

지역 맞춤형 합성 데이터는 영어 중심 모델을 보정하고 문화적 편향을 제거하는 기반이 되며, 프라이버시 보호와 규제 준수를 동시에 충족하는 방식으로 설계될 수 있다.

실천 포인트

지역별 AI 시스템을 개발하는 엔지니어 팀이 NeMo Data Designer와 같은 합성 데이터 생성 도구를 도입하면, 공식 통계를 기반으로 1,500개 이상의 직종을 포함한 다층적 페르소나를 생성하고 이를 다중 턴 대화 데이터 시드로 활용해 모국어 AI 에이전트와 도메인 특화 챗봇의 공정성 테스트와 문화적 신뢰성을 동시에 확보할 수 있다.

태그

#Japanese Language #Data Generation #Synthetic Data #Sovereign AI #LLM

원문 읽기