피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
NVIDIA가 6백만 건 규모의 다국어 추론 데이터셋을 5개 언어로 번역·공개하면서 오픈 생태계 LLM 학습 데이터 표준화
NVIDIA Releases 6 Million Multi-Lingual Reasoning Dataset
AI 요약
Context
오픈소스 LLM의 다국어 추론 능력 부족으로 비영어 사용자들을 위한 고성능 모델 부재 상황이었다. 기존 기계 번역 중심의 LLM 번역 방식은 합성 데이터 생성 시 환각(hallucination) 오류가 높아지고 입력 길이가 증가하면 품질 저하가 심했다.
Technical Solution
- 영어 추론 데이터의 프롬프트와 모델 응답만 번역하고 추론 체인은 원본 영어 유지: 사전학습 단계에서 축적된 영어 지식 활용 극대화
- 행 단위 문장 분해 후 번역 수행: 개행 구분자 기준으로 세분화하여 코드 블록 등 비번역 구간 자동 제외
- 특수 괄호 형식 강제(「Wrap the translated text in brackets 〘〙」): 출력 형식 강제로 번역 추출 신뢰성 향상 및 검증 용이
- fastText 언어 식별(Language ID) 필터링: 번역 언어 검증으로 55,567개(1.1%) 오류 데이터 제거
- Qwen2.5-32B-Instruct-AWQ(독일어) 및 Qwen2.5-14B-Instruct 선정: 단일 A100 GPU 메모리 내 추론 가능하면서 Apache 2.0 라이선스의 견고한 번역 품질 모델 사용
Impact
- Nemotron Nano 2 9B 모델의 토큰 생성 처리량: 동급 경쟁 모델 대비 최대 6배 향상
- 추론 비용 절감: 사고 토큰(thinking token) 예산 조정으로 최대 60% 비용 감소
- 데이터셋 품질 관리: 언어별 데이터 폐기율을 QA 2.28% 이하, 수학 1.11% 이하로 제한
Key Takeaway
합성 데이터 번역 시 사전학습된 지식을 보존하면서 행 단위 세분화, 형식 강제, 언어 검증의 계층적 필터링을 조합하면 대규모 다국어 데이터셋의 품질을 보장할 수 있다. 이러한 패턴은 비영어 언어권 LLM 학습 데이터 구축의 재현 가능한 표준안으로 활용 가능하다.
실천 포인트
다국어 LLM 파인튜닝 데이터를 자동으로 생성하는 팀에서 원본 언어의 추론 로직은 유지하되 프롬프트와 응답만 번역하고, 행 단위 분해 → 형식 강제 → 언어 검증 필터링을 순차 적용하면 환각 오류율을 1% 이하로 억제하면서 대규모 데이터셋 구축 자동화를 달성할 수 있다.