16MB 제한 내 bpb 1.0810 달성을 위한 초소형 LLM 최적화 설계

What is OpenAI's Parameter Golf Challenge, and why I spent a month on it

Swapnil Sawant2026년 5월 1일12분advanced

AI 요약

Context

제한된 모델 크기(16MB)와 짧은 학습 시간(10분) 내에 최적의 언어 모델을 구현해야 하는 극한의 제약 조건 발생. 기존 Baseline(bpb 1.2244)의 낮은 예측 정밀도와 제한적인 Vocabulary 크기로 인한 컨텍스트 처리 효율 저하가 주요 병목 지점으로 작용.

Technical Solution

Vocabulary 크기를 1024에서 8192로 확장하여 토큰당 정보 밀도를 높이고 학습 단계의 컨텍스트 처리 효율을 개선
Embedding Table의 선형적 크기 증가와 16MB 제약 사이의 Trade-off를 분석하여 최적의 Balance Point 도출
11-layer 아키텍처와 MLP 4x 구조를 채택하고 LeakyReLU 및 EMA(Exponential Moving Average)를 통한 학습 안정성 확보
GPTQ 및 SDClip을 적용한 Weight Quantization으로 파라미터당 메모리 점유율을 최소화하여 가용 용량 확보
RoPE(Rotary Positional Embedding) 적용 및 Sequential Residual 연결을 통해 레이어 간 정보 전달 최적화

Impact

Baseline 대비 Bits-per-byte(bpb) 수치를 1.2244에서 1.0810 수준으로 낮추어 예측 정밀도 향상
모델 크기 16MB 및 학습 시간 10분(8xH100 기준)이라는 엄격한 하드웨어 제약 내에서 SOTA에 근접한 성능 구현

실천 포인트

1. Vocabulary 크기 증가가 단순 메모리 증가가 아닌 데이터 압축률 향상을 통한 학습 효율 증대로 이어지는지 검토

2. 극심한 메모리 제약 환경에서 Quantization과 아키텍처 Depth 사이의 Trade-off 분석

3. Parallel Residual과 Sequential Residual의 구조적 차이가 모델 수렴 속도와 성능에 미치는 영향 측정

4. Depth Recurrence(레이어 루핑)를 통한 파라미터 재사용 전략의 실효성 검증

태그

#Transformer #RoPE #Quantization #Bits-per-byte #Tokenization

원문 읽기