bf16 Grad Accumulator 정밀도 손실 해결로 배경 일관성 6% 향상
The bf16 grad accumulator that killed our SDXL LoRA training
The bf16 grad accumulator that killed our SDXL LoRA training
Making Equation (2.2) of the OpenAI Erdős Result Executable
Your parity gate must enforce the number you publish: a testing methodology for porting ML models across runtimes
머신러닝 모델의 학습과 서빙 단계에서 수치 정밀도(FP32, BF16, FP16, INT8)를 전략적으로 선택하여 메모리 50~75% 절감과 추론 속도 2~4배 향상 달성