LLM 파라미터 및 Quantization 분석을 통한 최적 하드웨어 매칭 전략
LLM Model Names Decoded: A Developer's Guide to Parameters, Quantization & Formats
LLM Model Names Decoded: A Developer's Guide to Parameters, Quantization & Formats
카카오가 Pre-training과 Post-training 사이에 Mid-training 단계를 도입하고 Pre-training 데이터를 50B 토큰 규모로 리플레이해 한국어 성능 저하를 방지하면서 수학 벤치마크 AIME24에서 9.21%에서 53.21%로 성능 향상
Visual Salamandra: Pushing the Boundaries of Multimodal Understanding
StarCoder2-Instruct: Fully Transparent and Permissive Self-Alignment for Code Generation
Instruction-tuning Stable Diffusion with InstructPix2Pix