#model-compression 아티클 모음

Dev.to

모델 압축과 Predictive Caching을 통한 오프라인 AI 튜터 구현 및 학습 세션 275% 증대

Building an AI Tutor That Works Without Internet: Lessons from Rural Ethiopia

AI/MLintermediate10 분 소요2026년 4월 21일

Dev.to

FP32 대비 모델 크기 4배 감소 및 Edge 최적화를 위한 모델 압축 전략

Model Compression Techniques for Edge Deployment

AI/MLintermediate12 분 소요2026년 4월 20일

Dev.to

저리소스 언어 및 인프라 제약을 극복한 AI 튜터 Ivy 설계

Why Building AI for Non-English Speakers is Harder Than You Think (And How I Did It Anyway)

AI/MLintermediate8 분 소요2026년 4월 17일

Dropbox Tech

Mobius 팀이 Half-Quadratic Quantization(HQQ)을 도입해 LLM 양자화 시간을 50배 단축하고 캘리브레이션 데이터 없이 GPTQ/AWQ 수준의 압축 품질 달성

Half-Quadratic Quantization of large machine learning models

AI/MLadvanced24 분 소요2025년 10월 22일

Hugging Face Blog

Google이 Gemma 3n 모델을 오픈소스 생태계에 공개해 2GB GPU 메모리만으로 5B 파라미터 모델 실행 가능

Gemma 3n fully available in the open-source ecosystem!

AI/MLintermediate19 분 소요2025년 6월 26일

Hugging Face Blog

Intel이 Signed Gradient Descent 기반 POST-TRAINING QUANTIZATION 기법으로 INT2~INT8 저비트 양자화에서 기존 방법 대비 최대 2.1배 높은 정확도 달성

Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs

AI/MLintermediate16 분 소요2025년 4월 29일

Hugging Face Blog

Hugging Face가 256M~2.2B 파라미터의 SmolVLM2 모델 3종을 출시해 스마트폰부터 서버까지 모든 기기에서 비디오 이해 기능 실행 가능

SmolVLM2: Bringing Video Understanding to Every Device

AI/MLintermediate24 분 소요2025년 2월 20일

Hugging Face Blog

HuggingFace가 Vision Language Model을 256M 파라미터로 축소하면서 세계 최소 VLM 달성 및 비전 인코더·토크나이제이션·데이터 믹스 재설계

SmolVLM Grows Smaller – Introducing the 256M & 500M Models!

AI/MLintermediate18 분 소요2025년 1월 23일

Hugging Face Blog

TII가 1024개 H100 GPU로 14조 토큰 학습 및 깊이 확장·지식 증류 기법으로 10B 이하 소형 LLM 5개 모델군 출시, 13B 미만 카테고리에서 최고 성능 달성

Welcome to the Falcon 3 Family of Open Models!

AI/MLintermediate16 분 소요2024년 12월 17일

Hugging Face Blog

Hugging Face가 2B 파라미터 Vision Language Model(SmolVLM)을 개발해 대규모 모델 대비 9배 압축된 시각 정보 처리로 Colab에서 미세조정 가능한 구조 구현

SmolVLM - small yet mighty Vision Language Model

AI/MLintermediate30 분 소요2024년 11월 26일

Hugging Face Blog

Hugging Face 팀이 확산 모델 대신 Masked Image Modeling 방식의 aMUSEd 모델을 개발해 추론 단계를 단계 단위로 감소시키고 모델 크기를 800M 파라미터로 축소

Welcome aMUSEd: Efficient Text-to-Image Generation

AI/MLintermediate14 분 소요2024년 1월 4일

Hugging Face Blog

Würstchen이 42배 공간 압축을 달성해 Stable Diffusion XL 대비 이미지 생성 속도 향상 및 GPU 학습 비용 16배 감소

Introducing Würstchen: Fast Diffusion for Image Generation

AI/MLintermediate15 분 소요2023년 9월 13일

Hugging Face Blog

Hugging Face가 AutoGPTQ를 Transformers에 통합해 LLM을 2~8비트 정밀도로 양자화하고 약 4배의 메모리 절감 달성

Making LLMs lighter with AutoGPTQ and transformers

AI/MLintermediate26 분 소요2023년 8월 23일

Hugging Face Blog

Segmind가 Knowledge Distillation 기법으로 Stable Diffusion 모델을 35~55% 경량화하면서 추론 속도를 최대 100% 향상

Open-sourcing Knowledge Distillation Code and Weights of SD-Small and SD-Tiny

AI/MLintermediate13 분 소요2023년 8월 1일

Hugging Face Blog

Apple과 Hugging Face가 Mixed-Bit Palettization을 도입해 Stable Diffusion XL을 Mac에서 4.5bit 평균 압축률로 실행 가능하게 함

Stable Diffusion XL on Mac with Advanced Core ML Quantization

AI/MLintermediate19 분 소요2023년 7월 27일

Hugging Face Blog

Apple이 Core ML에 6-bit palettization 양자화 기법을 도입해 Stable Diffusion의 메모리 사용량을 대폭 감소시키고 추론 속도를 향상

Faster Stable Diffusion with Core ML on iPhone, iPad, and Mac

AI/MLintermediate22 분 소요2023년 6월 15일

Hugging Face Blog

Intel과 Hugging Face가 SmoothQuant 양자화 기법으로 LLM을 INT8로 압축해 Xeon CPU에서 실시간 텍스트 생성 달성

Smaller is better: Q8-Chat, an efficient generative AI experience on Xeon

AI/MLintermediate15 분 소요2023년 5월 16일