#llm-as-judge 아티클 모음

Dev.to

Local-first 아키텍처 기반 LLM Observability 및 Replay 시스템 구현

Building Lookspan: local-first observability & replay for LLM apps (v0.4.0)

AI/MLintermediate3 분 소요3시간 전

Dev.to

LLM-as-judge Binary 전환을 통한 Cohen's Kappa 0.47에서 0.78로 개선

Switching our LLM-as-judge from 5-class to binary in CI: the patterns we kept

AI/MLadvanced7 분 소요4시간 전

Dev.to

Tool-Call Accuracy 1.0의 함정을 극복한 4단계 정밀 Eval Stack 설계

Tool-Call Accuracy Is Lying to You: A Four-Layer Eval Stack for Agents

AI/MLadvanced16 분 소요15시간 전

Dev.to

Local MoE 도입으로 Haiku Tier 처리 속도 최대 9.3배 개선 및 비용 최적화

Benchmarking the Claude Agent SDK on a local LLM: Haiku and Sonnet tier performance

AI/MLadvanced17 분 소요6일 전

Dev.to

Binary Metric의 73% 손실을 해결하는 Trajectory 분석 기반 AI Agent 평가 체계

Cómo Evaluar Agentes IA: Tutorial de LLM-as-Judge

AI/MLintermediate42 분 소요2026년 5월 26일

Dev.to

17종 이상의 Agent Framework를 통합 지원하는 4계층 LLM 평가 체계 구축

Stop Flying Blind: We Built an LLM Evaluation Framework That Works Across 17+ Agent Frameworks

AI/MLintermediate33 분 소요2026년 5월 24일

Dev.to

LLM-as-Judge 한계 극복을 위한 결정론적 Cognitive Heatmap 기반 듀얼 시그널 평가 체계

An open source LLM eval tool with two independent quality signals

AI/MLadvanced13 분 소요2026년 5월 22일

Dev.to

Amazon Bedrock 기반 Serverless LLM-as-Judge 평가 파이프라인 구축

Building an AI Model Evaluation Pipeline on AWS for Audio Content Generation

AI/MLintermediate30 분 소요2026년 5월 22일

Dev.to

LLM-as-Judge 기반 RAGAS 도입을 통한 RAG 정량적 평가 체계 구축

RAG Evaluation with RAGAS: Measuring Faithfulness, Context Precision, and Recall in Production

AI/MLintermediate35 분 소요2026년 5월 18일

Dev.to

AI Agent 평가 프레임워크 간 설계 차이에 따른 점수 편차 최대 40% 발생

Cómo Evaluar AI Agents: Comparación de 3 Frameworks

AI/MLintermediate66 분 소요2026년 5월 18일

Dev.to

AI Agent 평가 프레임워크 3종 비교를 통한 최적의 LLM-as-Judge 전략 도출

How to Evaluate AI Agents: 3 Framework Comparison

AI/MLintermediate61 분 소요2026년 5월 18일

Dev.to

Heuristic 기반 검출기로 LLM 대비 정확도 5배 향상 및 비용 제로 달성

Why Heuristic Detectors Beat LLMs at Finding Agent Failures

AI/MLintermediate14 분 소요2026년 5월 15일

Dev.to

Calibration Set 도입을 통한 LLM Weight Drift 탐지 및 아키텍처적 가시성 확보

If You Can Survive a Toddler, You Can Ship LLMs in Production

AI/MLintermediate14 분 소요2026년 5월 14일

Dev.to

단일 KPI의 함정을 넘어 Fat-tailed Risk를 관리하는 Agent 안정성 설계

What Your Agent Will Cost You on a Tuesday

AI/MLadvanced40 분 소요2026년 5월 8일

Dev.to

실제 Production Failure 기반의 자동 Eval Suite 구축 전략

Madrigal's "Failures as Eval Suites" Pattern and How Flow Already Provides the Infrastructure

AI/MLintermediate19 분 소요2026년 5월 6일

Dev.to

LoRA 기반 맞춤형 벤치마크 구축을 통한 도메인 정확도 42.6%p 향상

When Generic Benchmarks Fail: Building a Sales-Domain Evaluation Bench from Scratch

AI/MLadvanced24 분 소요2026년 5월 2일

Dev.to

Sentry·Langfuse·LangGraph 조합을 통한 40개 Agent Fleet의 가시성 확보 및 품질 관리

Three Tools, Three Layers: Sentry, Langfuse, and LangGraph for Multi-Agent Fleets

AI/MLadvanced20 분 소요2026년 5월 2일

Dev.to

3-Tier 캐싱 구조 도입으로 RAG 응답 지연 시간 최대 99% 단축

I Tested 28 Query Pairs to See if Semantic Caches Actually Lie to Users. The Result Surprised Me

AI/MLintermediate35 분 소요2026년 5월 1일

Dev.to

합성 데이터 파이프라인 구축을 통한 HumanEval 16.8pp 성능 향상

Desktop app to generate LLM fine-tuning datasets — got +16pp on HumanEval

AI/MLintermediate11 분 소요2026년 4월 29일

GeekNews

Google Agents CLI — 코딩 에이전트를 에이전트 빌더로 만드는 메타 도구

분산된 에이전트 개발 스택을 통합한 Meta-Tool 기반의 개발 생명주기 자동화

AI/MLintermediate4 분 소요2026년 4월 23일