T4 GPU 기반 4-bit 양자화 Gemma 4 및 TF-IDF를 활용한 완전 오프라인 AI 커리어 어드바이저 구현

I Built an Offline AI Career Advisor Using Gemma 4 — Here's Exactly How It Works

soohan abbasi2026년 5월 13일9분intermediate

AI 요약

Context

기존 커리어 가이드 플랫폼의 유료 결제 장벽과 인터넷 연결 의존성 및 개인정보 노출 문제를 해결하기 위한 오프라인 시스템 필요성 대두. 제한된 VRAM 환경에서 대규모 데이터셋 기반의 실시간 매칭과 LLM 추론을 동시에 수행해야 하는 리소스 제약 상황 분석.

Technical Solution

4-bit NF4 Quantization 적용 및 device_map="cuda:0" 설정을 통한 15GB VRAM 내 gemma-4-e4b-it 모델(8.7GB) 최적 로드 및 메모리 단편화 방지
Dense Vector Search 대신 TF-IDF 기반 Bigram 인덱싱을 채택하여 임베딩 모델 로드에 따른 추가 VRAM 소모 및 추론 지연 시간을 제거한 결정론적 검색 구조 설계
LinkedIn(123K) 및 Coursera(6.6K) 데이터셋의 텍스트 필드 결합 및 10,000개 Feature 추출을 통한 고속 코사인 유사도 기반 매칭 메커니즘 구현
Multi-Agent Orchestration 구조를 도입하여 '스킬 추출 → 직무/강의 매칭 → 경로 생성 → 로드맵 설계 → ATS 스코어링'으로 이어지는 파이프라인 구축
Transformers 개발 브랜치 설치를 통한 gemma4 아키텍처 호환성 문제 해결 및 태그 수동 제어를 통한 프롬프트 정밀 튜닝

실천 포인트

- VRAM 부족 시 BitsAndBytes 4-bit 양자화 및 특정 GPU 핀닝(device_map) 검토 - 실시간성 및 메모리 최적화가 최우선인 오프라인 검색 시 Dense Embedding 대비 TF-IDF의 오버헤드 분석 - 모델 아키텍처 미지원 시 Hugging Face dev 브랜치 활용 가능성 확인 - 복잡한 워크플로우 구현 시 단일 프롬프트보다 목적별 Agent 분리를 통한 단계적 추론 설계

태그

#Gemma 4 #NF4 Quantization #TF-IDF #Multi-Agent Orchestration #Offline-First

원문 읽기