7B VLM을 2B로 Distillation하여 속도 2.4배 개선 및 ROUGE-L 성능 향상

I distilled a 7B vision model into a 2B one for screenshots — and the 7B teacher scored worse

Sergei Parfenov2026년 6월 2일11분advanced

AI 요약

Context

범용 소형 VLM의 성능 한계를 극복하고 UI 스크린샷 묘사라는 특정 도메인에 최적화된 경량 모델 필요성 증대. 대규모 모델의 높은 추론 비용과 메모리 점유율로 인한 Edge 디바이스 배포 제약을 해결하고자 함.

Technical Solution

Qwen2-VL-7B-Instruct를 Teacher 모델로 활용하여 UI 스크린샷 데이터셋에 대한 Target Behavior 정의
Sequence-level Distillation 방식을 통해 Teacher가 생성한 텍스트를 Student 모델이 복제하도록 LoRA Fine-tuning 수행
MLX 프레임워크 기반 4-bit Quantization을 적용하여 Apple Silicon 환경에서의 메모리 효율성 및 추론 속도 최적화
Response-based KD 구조 설계를 통해 Teacher Logits 없이 하드 타겟만으로 학습하는 Laptop-friendly 파이프라인 구축
데이터 정제 단계에서 Whitespace Normalization 및 길이 검증 로직을 적용하여 생성 데이터의 품질 일관성 확보

Impact

추론 속도 약 2.4배 향상 및 메모리 사용량 2.4배 절감
파라미터 수 3.75배 감소에도 불구하고 ROUGE-L 지표 기준 Teacher 모델보다 높은 점수 기록
Teacher 모델의 레이블링 속도 초당 약 10.2s 수준의 처리 성능 확인

Key Takeaway

특정 좁은 도메인(Narrow Domain)에서는 Distillation을 통해 소형 모델이 Teacher의 일반적 성능을 상회하는 '역전 현상'이 가능함. 단, 이는 데이터셋의 특성과 평가 지표(Metric)의 특성에 따라 결정되므로 도메인 적합한 Metric 선정과 LLM-as-judge 도입이 필수적임.

실천 포인트

1. 특정 도메인 특화 모델 구축 시 범용 소형 모델보다 고성능 모델의 Distillation 적용 검토

2. Edge 기기 배포를 위해 MLX, 4-bit Quantization 등 하드웨어 최적화 런타임 적용

3. 텍스트 길이 불일치로 인한 BLEU/ROUGE-L의 한계를 인지하고 CIDEr나 LLM-as-judge 평가 체계 도입

4. 대규모 데이터셋 전체 학습 전 소량의 데이터(예: 200개)로 레이블링 속도 및 품질 검증 단계 수행

태그

#Quantization #VLM #Knowledge Distillation #MLX #LoRA

원문 읽기