Meta/Mistral AI의 세 가지 LLM을 LoRA 파인튜닝으로 재난 트윗 분류 태스크에 적용하여 소형 RoBERTa가 70억 파라미터 모델들을 F1 점수 0.8077 대 0.7364~0.7638로 압도

Comparing the Performance of LLMs: A Deep Dive into Roberta, Llama 2, and Mistral for Disaster Tweets Analysis with Lora

2023년 11월 7일11분intermediate

AI 요약

Context

NLP 엔지니어들은 특정 태스크(예: 재난 트윗 분류)에 어떤 언어 모델을 선택해야 할지 결정해야 한다. 기존에는 모델 크기가 클수록 성능이 우수하다는 가정이 있었으나, 실제 실무 환경에서는 짧은 시퀀스 이진 분류 같은 단순 태스크에서 대규모 모델의 필요성을 검증해야 한다.

Technical Solution

LoRA(Low-Rank Adaptation) PEFT 기법 적용: 세 모델 모두에 동일하게 저순위 업데이트 행렬을 학습하면서 기존 가중치 고정으로 학습 파라미터 수 최소화 (RoBERTa 0.64%, Mistral 0.024%, Llama 2 0.12%만 학습)
공정한 비교를 위해 MAX_LEN=512로 통일: RoBERTa의 최대 시퀀스 길이 제약 적용
Hugging Face 생태계 활용: transformers, peft, datasets 라이브러리로 세 모델(roberta-large 355M, mistralai/Mistral-7B-v0.1 73억 파라미터, meta-llama/Llama-2-7b-hf 70억 파라미터) 통합
Weights & Biases로 하이퍼파라미터 튜닝: lora_alpha, lora_rank, lora_dropout, learning_rate, lora_bias 5개 변수를 베이즈 최적화로 탐색
A6000 GPU 1개(48GB 메모리)에서 단일 노드 학습: RoBERTa 538초 vs Mistral/Llama 각 2000초대 학습 시간

Impact

F1 점수: RoBERTa 0.8077 > Llama 2 0.7638 > Mistral 7B 0.7364 (RoBERTa가 11.0% 포인트 상회)
학습 시간: RoBERTa 538초 vs Llama 2 2052초 (Llama 2 대비 3.8배 빠름)
GPU 메모리: RoBERTa 최대 9.1GB vs Llama 2 최대 35GB (4배 차이)
학습 파라미터 수: Mistral 0.024% (가장 낮음) vs RoBERTa 0.64%

Key Takeaway

짧은 시퀀스 이진 분류 같은 단순 태스크에서는 파라미터 규모보다 아키텍처 특성이 더 중요하며, 프로젝트의 리소스 제약과 성능 요구사항을 종합적으로 고려하여 모델을 선택해야 한다. LoRA는 인코더(RoBERTa) 및 디코더(Llama 2, Mistral 7B) 아키텍처 모두에 동일하게 적용 가능한 범용 파인튜닝 기법임을 입증했다.

실천 포인트

짧은 시퀀스 분류 태스크를 수행하는 ML 엔지니어가 대규모 LLM 도입을 검토할 때, LoRA 파인튜닝으로 소형 모델(예: RoBERTa 355M)과 대형 모델(70억 파라미터)을 동일한 하이퍼파라미터 튜닝 프레임워크로 비교 평가하면 오버엔지니어링을 방지하고 학습 시간을 3~4배 단축할 수 있다.

태그

#Fine-Tuning #PEFT #NLP #LLM #LoRA

원문 읽기