Princeton NLP 팀이 HELMET 벤치마크를 통해 장문맥 언어 모델 평가의 표준화로 기존 평가 지표의 불일치 문제 해결
Introducing HELMET: Holistically Evaluating Long-context Language Models
Introducing HELMET: Holistically Evaluating Long-context Language Models
StarCoder: A State-of-the-Art LLM for Code