피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Knowledge Distillation과 Dual-LoRA 기반 맞춤형 채용 매칭 시스템 구축
Job Searcher
AI 요약
Context
단순 키워드 매칭 기반의 구직 과정에서 발생하는 과도한 필터링 비용과 낮은 매칭 정확도 해결 필요. 대규모 모델의 높은 추론 비용과 느린 응답 속도로 인해 실시간 개인화 서비스 적용에 한계 존재.
Technical Solution
- DeepSeek V4 Pro를 Teacher 모델로 활용하여 2,500개 이력서 기반의 고품질 라벨링 데이터셋 생성
- Qwen3-8B를 Student 모델로 채택하고 Q4_K_M 양자화를 적용하여 단일 ZeroGPU 슬라이스 내 배포 최적화
- Query 생성과 Fit 평가 태스크를 분리한 두 개의 전용 LoRA 어댑터를 설계하여 포맷 혼선 및 데이터 누수 방지
- @spaces.GPU 호출을 제출 단위로 그룹화하여 CUDA 컨텍스트 재사용 및 Cold Start 오버헤드 최소화
- OpenAI 호환 스트리밍 API를 통한 추론 결과의 실시간 UI 렌더링 구현
- 구체적인 근거 기반의 라벨링 프롬프트를 통해 Student 모델에 세부 분석 습관 전이
실천 포인트
- 서로 다른 출력 형식을 가진 멀티 태스크 수행 시, 단일 LoRA보다 태스크별 전용 어댑터를 Hot-swap 하는 구조 검토 - LLM Distillation 시 Teacher 모델의 프롬프트 구체성이 Student 모델의 추론 품질에 직접적인 영향을 미침을 인지 - 서버리스 GPU 환경에서 모델 로드 및 컨텍스트 스위칭 비용을 줄이기 위해 요청 단위의 배치 처리 설계 적용