#llm-benchmark 아티클 모음

Hacker News

Intelligence Index 53점 달성 및 1M Context Window 확보

Claude Sonnet 5 – benchmark results

AI/MLintermediate2 분 소요2일 전

GeekNews

Open Weight LLM, 2026년 폐쇄형 모델 성능 격차 제로 예측

AI/MLintermediate14 분 소요4일 전

Hacker News

MTG Bench: Testing how well LLMs can play Magic

AI/MLintermediate11 분 소요2026년 6월 11일

Dev.to

How I Slashed My AI API Bill by 92% in 2026 — A Cost Optimizer's Speed Benchmark Guide

AI/MLintermediate10 분 소요2026년 5월 22일

Dev.to

Do Open Frontier Models Have A Chance Against Closed Models?

AI/MLintermediate23 분 소요2026년 5월 13일

Dev.to

One AI Model Scored 99. I Still Voted for the One That Scored 95.

AI/MLintermediate13 분 소요2026년 5월 12일

Dev.to

A Billion Token Lesson: Because You Can You Should

AI/MLintermediate7 분 소요2026년 5월 11일

GeekNews

GPT-5.5, Clean Pass 33/56 달성하며 통합 구현 및 리뷰 품질 압도

AI/MLadvanced11 분 소요2026년 5월 4일

GeekNews

Kimi K2.6, 오픈 가중치 모델로 프런티어급 코딩 성능 달성

AI/MLintermediate13 분 소요2026년 5월 4일

Dev.to

Tenacious-Bench v0.1: a small B2B sales-outreach benchmark with contamination checks

AI/MLintermediate5 분 소요2026년 5월 2일

GeekNews

SWE-bench Verified 포화 및 데이터 오염에 따른 LLM 코딩 역량 측정 한계 분석

AI/MLadvanced15 분 소요2026년 4월 27일

Dev.to

Claude Sonnet 4.5 Code Review Benchmark

Backendintermediate62 분 소요2026년 3월 29일