피드로 돌아가기
The RegisterAI/ML
원문 읽기
13B 파라미터 규모의 1930년 이전 데이터 전용 Vintage LLM 구축
Vintage chatbot lives in the past like an elderly relative
AI 요약
Context
현대 LLM의 학습 데이터 편향과 지식 컷오프 메커니즘을 심층 분석하기 위한 특수 목적 모델 필요성 대두. 기존 모델의 일반적인 학습 방식으로는 특정 시점의 순수 지식 상태와 그에 따른 논리적 추론 능력을 격리하여 측정하기 어려운 한계 존재.
Technical Solution
- 미국 공공 도메인 기준인 1930년 이전의 디지털 스캔 문서만을 활용한 데이터셋 구축
- 13 Billion Parameters 규모의 모델 아키텍처를 채택하여 Vintage LM 중 최대 규모 구현
- OCR 기반 텍스트 추출 방식을 통한 물리적 기록물의 디지털 데이터화 공정 수행
- 학습 데이터 내 현대 정보 유입을 차단하는 Filtering 프로세스를 적용한 Temporal Leakage 제어
- 동일 아키텍처의 현대 데이터 학습 모델과 성능을 비교하는 Benchmarking 체계 설계
- 지식 컷오프 상태에서의 과학적 발견 가능성을 검증하는 AGI 테스트 시나리오 적용
실천 포인트
1. OCR 기반 데이터셋 구축 시 발생하는 Noise가 LLM 성능 저하의 핵심 원인임을 인지하고 데이터 정제 파이프라인 강화
2. 특정 도메인/시점의 지식을 격리해야 하는 경우, 학습 코퍼스의 Temporal Filtering 전략 수립
3. 모델의 추론 능력을 검증하기 위해 동일 아키텍처 기반의 Control Group(현대 데이터 모델) 설정