피드로 돌아가기
Dev.toAI/ML
원문 읽기
4-bit Quantization을 통한 T4 GPU 기반의 Meeting Minutes AI 파이프라인 구현
Build a Meeting Minutes AI From Raw Audio
AI 요약
Context
음성 파일에서 회의록을 자동 생성하기 위해 ASR과 LLM을 결합한 2단계 파이프라인 설계 필요성 대두. 특히 무료 Google Colab T4 GPU의 제한된 VRAM 내에서 Llama 3.2 3B 모델을 구동해야 하는 메모리 제약 상황에 직면.
Technical Solution
- Whisper-medium 모델을 활용하여 Raw Audio를 텍스트로 변환하는 ASR Stage 구축
- BitsAndBytes 라이브러리를 통한 4-bit NF4 Quantization 적용으로 모델 가중치 정밀도를 낮추어 VRAM 점유율 최적화
- NormalFloat4 데이터 타입을 채택하여 가중치 분포의 정규성을 유지하며 모델 정확도 손실 최소화
- Double Quantization 기법을 통해 양자화 상수까지 추가 압축하여 파라미터당 약 0.4 bit의 추가 메모리 절감
- apply_chat_template을 사용하여 Llama 3.2 Instruct 모델의 학습 포맷에 맞춘 정밀한 프롬프트 구조 설계
- bfloat16 compute dtype 설정을 통해 최신 하드웨어에서의 수치적 안정성 확보 및 연산 속도 향상
실천 포인트
1. 무료 GPU 환경에서 LLM 구동 시 BitsAndBytes의 load_in_4bit 옵션 검토
2. 배치 추론 시 에러 방지를 위해 pad_token을 eos_token으로 설정했는지 확인
3. 모델의 Instruction-tuning 포맷 준수를 위해 Chat Template API 사용 권장
4. 추론 속도와 수치 안정성을 위해 float16보다 bfloat16 사용 고려