NVIDIA가 6백만 건 규모의 다국어 추론 데이터셋을 5개 언어로 번역·공개하면서 오픈 생태계 LLM 학습 데이터 표준화

NVIDIA Releases 6 Million Multi-Lingual Reasoning Dataset

2025년 8월 20일7분intermediate

AI 요약

Context

오픈소스 LLM의 다국어 추론 능력 부족으로 비영어 사용자들을 위한 고성능 모델 부재 상황이었다. 기존 기계 번역 중심의 LLM 번역 방식은 합성 데이터 생성 시 환각(hallucination) 오류가 높아지고 입력 길이가 증가하면 품질 저하가 심했다.

Technical Solution

영어 추론 데이터의 프롬프트와 모델 응답만 번역하고 추론 체인은 원본 영어 유지: 사전학습 단계에서 축적된 영어 지식 활용 극대화
행 단위 문장 분해 후 번역 수행: 개행 구분자 기준으로 세분화하여 코드 블록 등 비번역 구간 자동 제외
특수 괄호 형식 강제(「Wrap the translated text in brackets 〘〙」): 출력 형식 강제로 번역 추출 신뢰성 향상 및 검증 용이
fastText 언어 식별(Language ID) 필터링: 번역 언어 검증으로 55,567개(1.1%) 오류 데이터 제거
Qwen2.5-32B-Instruct-AWQ(독일어) 및 Qwen2.5-14B-Instruct 선정: 단일 A100 GPU 메모리 내 추론 가능하면서 Apache 2.0 라이선스의 견고한 번역 품질 모델 사용

Impact

Nemotron Nano 2 9B 모델의 토큰 생성 처리량: 동급 경쟁 모델 대비 최대 6배 향상
추론 비용 절감: 사고 토큰(thinking token) 예산 조정으로 최대 60% 비용 감소
데이터셋 품질 관리: 언어별 데이터 폐기율을 QA 2.28% 이하, 수학 1.11% 이하로 제한

Key Takeaway

합성 데이터 번역 시 사전학습된 지식을 보존하면서 행 단위 세분화, 형식 강제, 언어 검증의 계층적 필터링을 조합하면 대규모 다국어 데이터셋의 품질을 보장할 수 있다. 이러한 패턴은 비영어 언어권 LLM 학습 데이터 구축의 재현 가능한 표준안으로 활용 가능하다.

실천 포인트

다국어 LLM 파인튜닝 데이터를 자동으로 생성하는 팀에서 원본 언어의 추론 로직은 유지하되 프롬프트와 응답만 번역하고, 행 단위 분해 → 형식 강제 → 언어 검증 필터링을 순차 적용하면 환각 오류율을 1% 이하로 억제하면서 대규모 데이터셋 구축 자동화를 달성할 수 있다.

태그

#Open Source #Multilingual #Translation #Dataset #LLM

원문 읽기