전체 피드 소스 목록

카테고리

Frontend Backend DevOps AI/ML Mobile Database Security Career Infrastructure

© 2026 DevPick

#benchmarkevaluation

피드 검색 북마크 설정

Hugging Face Blog

Princeton NLP 팀이 HELMET 벤치마크를 통해 장문맥 언어 모델 평가의 표준화로 기존 평가 지표의 불일치 문제 해결

Introducing HELMET: Holistically Evaluating Long-context Language Models

AI/MLintermediate30 분 소요2025년 4월 16일

Hugging Face Blog

BigCode가 15B 파라미터 Code LLM(StarCoder)을 1조 토큰으로 학습하고 Python 35B 토큰으로 파인튜닝해 HumanEval에서 OpenAI code-cushman-001을 능가

StarCoder: A State-of-the-Art LLM for Code

AI/MLintermediate11 분 소요2023년 5월 4일