피드로 돌아가기
GeekNewsAI/ML
원문 읽기
노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습
448 GPU 및 NVMe 플래시 스토리지를 활용한 주권형 LLM 구축
AI 요약
Context
범용 LLM의 영어 중심 Tokenizer 설계로 인한 비영어권 언어의 처리 효율 저하 및 문화적 편향 발생. 국립도서관의 고품질 저작권 데이터셋을 활용하여 자국어 특화 모델을 구축하려는 시도임.
Technical Solution
- HPE Cray Supercomputing EX 기반 448개 GPU와 64,512개 CPU 코어를 활용한 연산 인프라 구성
- LLM Checkpointing 및 입출력 병목 해결을 위한 2페타바이트 규모의 NVMe Flash Storage 도입
- 영어 중심 LoRA 기반 현지화의 한계를 극복하기 위해 From Scratch 학습 방식 채택
- 자국어 특성에 최적화된 Tokenizer 설계를 통한 토큰 효율성 및 생성 속도 개선 도모
- Olmo 3 레시피 기반의 혼합 데이터셋 구성 및 도서관 아카이브 데이터 우선 학습 전략 적용
- 자체 Embedding 모델 구축을 통한 역사·문화·법률 도메인 특화 RAG 구조 설계
실천 포인트
- 저자원 언어 모델링 시 LoRA보다 From Scratch 학습이 언어 포착 능력에 우세한지 검토 - 고성능 LLM 학습 시 체크포인트 쓰기 성능 확보를 위해 전통적 디스크 대신 NVMe 기반 플래시 스토리지 구성 - 특정 언어 최적화를 위해 Tokenizer의 토큰 할당 밀도와 생성 속도 간의 상관관계 분석 - 도메인 특화 지식 내재화를 위한 전용 Embedding 모델과 RAG 파이프라인 결합 고려