#swe-bench 아티클 모음

Dev.to

코드 RAG의 신뢰도 격차 해소를 위한 Deterministic Verification 엔진 도입

RAG for codebases is hard. Trusting the answer is harder.

AI/MLadvanced11 분 소요2026년 6월 29일

Dev.to

Darwin Gödel Machine 기반 자가 개선 AI 에이전트 구현 및 정답률 12.5%에서 100% 달성

I Built an AI Agent That Rewrites Its Own Code (in ~150 lines)

AI/MLintermediate12 분 소요2026년 6월 27일

Dev.to

LLM 교체보다 강력한 Agent Harness 최적화로 Pass@1 54.3%p 상승

Agent Harness Design Beats Model Tweaks

AI/MLadvanced3 분 소요2026년 6월 19일

Dev.to

Fable 5의 SWE-bench Pro 80.3% 달성 및 GAI 5단계 성숙도 모델 정의

Stop Asking 'Is GAI Here' — Ask 'At What Layer'

AI/MLadvanced7 분 소요2026년 6월 19일

Dev.to

SWE-bench Verified 95% 달성한 Fable 5의 성능과 규제 리스크

Claude Fable 5 Pulled by US Export Order — 72 Hours After Launch

AI/MLadvanced19 분 소요2026년 6월 14일

Dev.to

SWE-bench 95% 달성 및 Guarded Domain 기반 모델 Fallback 설계

Claude Fable 5 Scores 95% on SWE-bench, Then Hands Off to Opus 4.8

AI/MLadvanced7 분 소요2026년 6월 12일

GeekNews

Claude Fable 5/Mythos 5 공개, Anthropic의 5세대 프런티어 모델

SWE-Bench Pro 80.3% 달성 및 장기 자율 작업 최적화된 5세대 Frontier Model 공개

AI/MLadvanced20 분 소요2026년 6월 10일

GeekNews

AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전

코드 병합량 8배 증가 및 12시간 자율 작업 달성으로 재귀적 자기 개선 가속화

AI/MLadvanced29 분 소요2026년 6월 5일

Dev.to

Copilot의 Token 기반 과금 체계 탈피 및 Claude Code의 Flat-rate 전환을 통한 비용 최적화

Switch from GitHub Copilot to Claude Code: Migration Guide 2026

AI/MLintermediate26 분 소요2026년 6월 4일

Dev.to

Claude Code 70% 벤치마크 달성 및 5.5배 높은 Token 효율성 확보

Claude Code vs Cursor in 2026: I Tested Both for 30 Days — Here's the Real Difference

AI/MLintermediate14 분 소요2026년 6월 3일

GeekNews

최대 60% 토큰 절감 및 SWE-Bench Pro 51.2% 달성한 고효율 코딩 모델

MAI-Code-1-Flash

AI/MLadvanced17 분 소요2026년 6월 3일

Dev.to

0.11$/M 토큰의 초저가 비용과 MoE 기반 효율성을 갖춘 80B 코딩 에이전트

Qwen3-Coder-Next review 2026: 80B params, 3B active, and the cheapest credible coding agent API

AI/MLintermediate15 분 소요2026년 6월 2일

Dev.to

SWE-bench 80.2% 달성 및 1M Context 확장으로 진화한 Sonnet 4.6

Claude Sonnet 4.5 vs 4.6: What Changed and Which Should You Use?

AI/MLintermediate10 분 소요2026년 5월 28일

Dev.to

SWE-bench 87.6% 달성과 MCP/A2A 표준 기반 Agentic Workflow의 전환

AI Daily Digest: May 22, 2026 — Agentic Workflows, Coding Agents & Embodied AI

AI/MLadvanced16 분 소요2026년 5월 21일

Dev.to

Claude Code 87.8% SWE-bench 달성과 Harness 중심의 AI 개발 패러다임 전환

Best Vibe Coding Tools for SaaS in 2026

AI/MLintermediate33 분 소요2026년 5월 21일

Dev.to

SWE-Bench 63.8% 달성한 Gemini 2.5 Pro의 대규모 컨텍스트 분석 역량

Gemini vs. ChatGPT for Coding: A Developer's Guide

AI/MLintermediate59 분 소요2026년 5월 20일

GeekNews

Code w/ Claude에서 발표한 모든 것들

Opus 4.7 기반 SWE-bench 87% 달성 및 Cloud Agent 자율성 극대화

AI/MLadvanced24 분 소요2026년 5월 14일

Dev.to

개별 도구 활용을 넘어 조직적 AI Agent 체계로 구현한 개발 생산성 혁신

What 11 big tech companies actually do with AI in 2026

AI/MLadvanced63 분 소요2026년 5월 9일

Dev.to

Opus 4.7의 SWE-Bench 87.6% 달성 및 MCP 기반 Agentic AI 확장

AI Lab Weekly - May 7, 2026 - Claude Code, MCP and agentic AI picks (EN + TR)

AI/MLintermediate16 분 소요2026년 5월 7일

Dev.to

SWE-bench 72.2% 달성 및 RTX 4090 기반 로컬 배포 가능한 Devstral 2 출시

Devstral 2: Run Mistral's Open Coding Agent Locally

AI/MLintermediate27 분 소요2026년 5월 2일