Open LLM Leaderboard가 3,000개 모델의 추론 CO₂ 배출량을 측정·통합해 커뮤니티 파인튜닝 모델들이 공식 모델보다 에너지 효율이 높음을 발견
CO₂ Emissions and Models Performance: Insights from the Open LLM Leaderboard
AI 요약
Context
LLM 추론 단계의 환경 영향에 대한 투명성 부족으로 모델 개발자들이 성능과 환경 책임 간의 트레이드오프를 인식하지 못하고 있었다. 2024년 6월 이후 Open LLM Leaderboard에서 3,000개 이상의 모델을 평가하면서 상당한 에너지가 소비되었지만, 평가 과정의 탄소 배출량이 공개되지 않았다.
Technical Solution
- 추론 CO₂ 배출량 계산 방식 정의: 평가 시간 + 클러스터 하드웨어 전력 소비량 + 전력원의 탄소 강도(carbon intensity)를 조합해 산정
- 표준화된 평가 환경 구축: 모든 모델을 동일한 8개 GPU 노드에서 Transformers + Accelerate를 사용해 pipeline parallelism과 data parallelism 조합으로 평가
- Colab 노트북 제공: 계산 데이터와 분석 결과를 공개하여 커뮤니티가 재현 및 추가 분석 가능하도록 구성
- 2,742개 주요 모델 아키텍처 분석: Gemma, Llama, Mistral, Mixtral, Phi, Qwen2, GPT, GPT-NeoX, T5 등의 모델군에서 매개변수 수 대비 CO₂ 배출량 비교
- 공식 모델(341개)과 커뮤니티 릴리스 분류 분석: 모델 출처별로 에너지 효율성과 성능 점수의 상관관계 조사
Impact
커뮤니티 파인튜닝 모델은 10B 매개변수 이하에서 평균 35점(최고 45점)의 리더보드 점수를 5kg CO₂ 미만으로 달성. Qwen-2.5-14B와 Phi-3-Medium이 리더보드 점수 대비 배출량 비율에서 최고 효율을 기록. AbacusAI, Qwen, AllenAI의 70B 매개변수 모델들이 평균 40점 이상의 점수를 달성. MoE(Mixture of Experts) 모델들은 예상보다 높은 CO₂ 배출량을 기록(극도로 긴 추론 시간으로 인한 것).
Key Takeaway
모델 크기와 CO₂ 배출량은 정비례하지만 성능 향상은 비례하지 않으므로(diminishing returns), 에너지 제약이 있는 환경에서는 소규모 모델이나 커뮤니티 파인튜닝 모델이 더 나은 선택이 될 수 있다. 파인튜닝된 커뮤니티 모델이 기반 모델보다 에너지 효율적인 이유를 파악하면 향후 LLM 개발 단계에서 의도적인 최적화 기회를 발견할 수 있다.
실천 포인트
LLM을 프로덕션에 배포하는 엔지니어는 성능 벤치마크와 함께 동일한 하드웨어 설정에서 추론 CO₂ 배출량(평가 시간 × 전력 소비 × 탄소 강도)을 측정해 비교하면, 리더보드 점수와 에너지 효율의 파레토 경계를 식별해 비용-효율 최적의 모델을 선택할 수 있다. 특히 70B 매개변수 공식 모델 대신 14B 커뮤니티 파인튜닝 모델을 검토하면 유사하거나 더 나은 성능을 50% 이상 낮은 배출량으로 달성할 수 있다.