#model-evaluation 아티클 모음

Hacker News

Open Weights LLM의 Closed Source 추격 격차 분석 및 벤치마크별 편차 확인

The gap between open weights LLMs and closed source LLMs

AI/MLintermediate6 분 소요2026년 6월 26일

Dev.to

Aggregate 기반 90% Threshold의 함정, Per-slice Delta Gating으로 Drift 해결

91% pass rate. Gate green. Shipped. Worst regression we had all quarter.

AI/MLintermediate6 분 소요2026년 6월 23일

Dev.to

Composer 2.5 Fast: 비용 동일, 속도 32% 향상 및 성능 우위 달성

We ran Composer 2.5 and 2.5 Fast across 11 skills. Surprisingly, Fast won.

AI/MLintermediate10 분 소요2026년 6월 16일

Dev.to

Adapter 패턴 기반 Small LLM 전환 전략 및 모델별 특성 분석

Gemini 3.5 Flash vs Claude Haiku vs GPT-4o mini: Picking a Small Model

AI/MLintermediate13 분 소요2026년 5월 20일

Dev.to

Synthetic Data의 훈련-평가 분리를 통한 Model Evaluation 신뢰성 확보

The Synthetic Data Trap: When It Helps, When It Lies

AI/MLintermediate11 분 소요2026년 5월 20일

The Register

Supply Chain Risk 관점의 AI 모델 도입 제한 및 보안 평가 체계

Mythos complicates the breakup, says Pentagon CTO, but Anthropic is still barred

Securityintermediate5 분 소요2026년 5월 1일

Dev.to

범용 Benchmark를 넘어선 도메인 특화 Eval 설계의 필요성

Wait, you guys run evals?

AI/MLintermediate2 분 소요2026년 4월 22일

Dev.to

월 $60 미만 Spot GPU 기반의 사용자 피드백 Loop 구축을 통한 LLM 지속적 개선

I Thought Fine-Tuning Needed an ML Team. I Was Wrong.

AI/MLintermediate8 분 소요2026년 4월 18일

Dev.to

бесплатный 60-минутный воркшоп по FiftyOne 기반 Computer Vision 워크플로우 핵심 기술 습득함

April 8 - Getting Started with Computer Vision Workflows Workshop

AI/MLbeginner2 분 소요2026년 4월 2일

Hugging Face Blog

NVIDIA가 NeMo Evaluator 라이브러리와 완전 공개된 평가 레시피로 Nemotron 3 Nano 30B A3B 모델을 벤치마킹해 재현 가능하고 검증 가능한 평가 표준 제시

The Open Evaluation Standard: Benchmarking NVIDIA Nemotron 3 Nano with NeMo Evaluator

AI/MLintermediate30 분 소요2025년 12월 17일

Hugging Face Blog

Open ASR Leaderboard가 다국어 및 장형 음성 트랙 추가로 60개 이상 ASR 모델을 11개 데이터셋에서 비교 가능하게 확장

Open ASR Leaderboard: Trends and Insights with New Multilingual & Long-Form Tracks

AI/MLintermediate11 분 소요2025년 11월 21일

Hugging Face Blog

Cloud Security Alliance와 Noma Security가 RiskRubric.ai를 출시해 50만 개 이상의 AI 모델에 대한 표준화된 위험 평가 체계 구축

Democratizing AI Safety with RiskRubric.ai

AI/MLintermediate11 분 소요2025년 9월 18일

Hugging Face Blog

Open LLM Leaderboard가 3,000개 모델의 추론 CO₂ 배출량을 측정·통합해 커뮤니티 파인튜닝 모델들이 공식 모델보다 에너지 효율이 높음을 발견

CO₂ Emissions and Models Performance: Insights from the Open LLM Leaderboard

AI/MLintermediate41 분 소요2025년 1월 9일

Hugging Face Blog

Artificial Analysis가 Big Bench Audio 데이터셋을 구축해 음성 추론 모델의 성능 평가 기준을 마련했으며, GPT-4o의 텍스트 대비 음성 입출력에서 26%포인트 정확도 저하 발견

Evaluating Audio Reasoning with Big Bench Audio

AI/MLintermediate16 분 소요2024년 12월 20일

Hugging Face Blog

Artificial Analysis가 45,000건의 인간 선호도 데이터와 ELO 스코어링으로 Text-to-Image 모델 랭킹 시스템 구축

Launching the Artificial Analysis Text to Image Leaderboard & Arena

AI/MLintermediate9 분 소요2024년 6월 6일

Hugging Face Blog

Edinburgh 대학 연구팀이 EleutherAI Language Model Evaluation Harness를 기반으로 LLM의 환각(hallucination) 문제를 측정하는 오픈 리더보드 플랫폼 구축

The Hallucinations Leaderboard, an Open Effort to Measure Hallucinations in Large Language Models

AI/MLintermediate36 분 소요2024년 1월 29일

Hugging Face Blog

Hugging Face가 머신러닝 개발 전 과정에서 편향을 감지하고 문서화하는 도구 및 방법론 제시로 모델 개발 시 사회적 영향 평가 체계 구축

Let's talk about biases in machine learning! Ethics and Society Newsletter #2

AI/MLintermediate54 분 소요2022년 12월 15일

Hugging Face Blog

Hugging Face가 56개 데이터셋과 8개 작업을 포함한 MTEB 벤치마크를 구축해 2000개 이상의 임베딩 모델 성능을 단일 지표로 비교 가능하게 함

MTEB: Massive Text Embedding Benchmark

AI/MLintermediate10 분 소요2022년 10월 19일

Hugging Face Blog

Hugging Face가 Evaluation on the Hub를 출시해 코드 작성 없이 모든 모델을 모든 데이터셋에서 평가 가능하도록 구현

Announcing Evaluation on the Hub

AI/MLintermediate18 분 소요2022년 6월 28일