피드로 돌아가기
Comparing the Performance of LLMs: A Deep Dive into Roberta, Llama 2, and Mistral for Disaster Tweets Analysis with Lora
Hugging Face BlogHugging Face Blog
AI/ML

Meta/Mistral AI의 세 가지 LLM을 LoRA 파인튜닝으로 재난 트윗 분류 태스크에 적용하여 소형 RoBERTa가 70억 파라미터 모델들을 F1 점수 0.8077 대 0.7364~0.7638로 압도

Comparing the Performance of LLMs: A Deep Dive into Roberta, Llama 2, and Mistral for Disaster Tweets Analysis with Lora

2023년 11월 7일11intermediate

Context

NLP 엔지니어들은 특정 태스크(예: 재난 트윗 분류)에 어떤 언어 모델을 선택해야 할지 결정해야 한다. 기존에는 모델 크기가 클수록 성능이 우수하다는 가정이 있었으나, 실제 실무 환경에서는 짧은 시퀀스 이진 분류 같은 단순 태스크에서 대규모 모델의 필요성을 검증해야 한다.

Technical Solution

  • LoRA(Low-Rank Adaptation) PEFT 기법 적용: 세 모델 모두에 동일하게 저순위 업데이트 행렬을 학습하면서 기존 가중치 고정으로 학습 파라미터 수 최소화 (RoBERTa 0.64%, Mistral 0.024%, Llama 2 0.12%만 학습)
  • 공정한 비교를 위해 MAX_LEN=512로 통일: RoBERTa의 최대 시퀀스 길이 제약 적용
  • Hugging Face 생태계 활용: transformers, peft, datasets 라이브러리로 세 모델(roberta-large 355M, mistralai/Mistral-7B-v0.1 73억 파라미터, meta-llama/Llama-2-7b-hf 70억 파라미터) 통합
  • Weights & Biases로 하이퍼파라미터 튜닝: lora_alpha, lora_rank, lora_dropout, learning_rate, lora_bias 5개 변수를 베이즈 최적화로 탐색
  • A6000 GPU 1개(48GB 메모리)에서 단일 노드 학습: RoBERTa 538초 vs Mistral/Llama 각 2000초대 학습 시간

Impact

  • F1 점수: RoBERTa 0.8077 > Llama 2 0.7638 > Mistral 7B 0.7364 (RoBERTa가 11.0% 포인트 상회)
  • 학습 시간: RoBERTa 538초 vs Llama 2 2052초 (Llama 2 대비 3.8배 빠름)
  • GPU 메모리: RoBERTa 최대 9.1GB vs Llama 2 최대 35GB (4배 차이)
  • 학습 파라미터 수: Mistral 0.024% (가장 낮음) vs RoBERTa 0.64%

Key Takeaway

짧은 시퀀스 이진 분류 같은 단순 태스크에서는 파라미터 규모보다 아키텍처 특성이 더 중요하며, 프로젝트의 리소스 제약과 성능 요구사항을 종합적으로 고려하여 모델을 선택해야 한다. LoRA는 인코더(RoBERTa) 및 디코더(Llama 2, Mistral 7B) 아키텍처 모두에 동일하게 적용 가능한 범용 파인튜닝 기법임을 입증했다.


짧은 시퀀스 분류 태스크를 수행하는 ML 엔지니어가 대규모 LLM 도입을 검토할 때, LoRA 파인튜닝으로 소형 모델(예: RoBERTa 355M)과 대형 모델(70억 파라미터)을 동일한 하이퍼파라미터 튜닝 프레임워크로 비교 평가하면 오버엔지니어링을 방지하고 학습 시간을 3~4배 단축할 수 있다.

원문 읽기