#inference-optimization 아티클 모음

GeekNews

Claude Sonnet 5 공개

Opus급 Agentic 성능을 Sonnet 비용으로 구현한 Claude Sonnet 5 출시

AI/MLintermediate21 분 소요1일 전

Hacker News

Intelligence Index 53점 달성 및 1M Context Window 확보

Claude Sonnet 5 – benchmark results

AI/MLintermediate2 분 소요2일 전

Hacker News

Compounding Correctness 기반 AI Agent 운영 패러다임 전환

Tokenmaxxing is dead, long live Tokenmaxxing

AI/MLintermediate38 분 소요4일 전

Dev.to

Prompt 중심에서 Context Architecture로의 AI 설계 패러다임 전환

The End of "One-Shot AI": Why Context Engineering Is Replacing Prompt Engineering

AI/MLintermediate29 분 소요4일 전

Dev.to

Grafted-head 기반 DSpark를 통한 Lossless 추론 성능 2-4배 가속

DeepSeek's DSpark Brings Speculative Decoding Back Into the Spotlight — Here's What Developers Need to Know

AI/MLadvanced11 분 소요4일 전

GeekNews

GPT‑5.6 Sol 프리뷰: 차세대 모델

750 TPS 속도와 Sub-Agent 기반 Ultra 모드로 추론 효율 극대화

AI/MLadvanced24 분 소요5일 전

Dev.to

AI 週報 — 2026-06-18 to 2026-06-26 | 晶片自研浪潮與開源生態攻守

OpenAI-Broadcom 추론 칩 설계 및 141억 달러 규모의 산력 인프라 집중

AI/MLadvanced6 분 소요6일 전

GeekNews

FUTO Swipe: 공개형 스와이프 입력 모델

250만 파라미터 소형 모델로 구현한 온디바이스 스와이프 입력 시스템

AI/MLadvanced12 분 소요2026년 6월 24일

GeekNews

Moebius: 0.2B 이미지 인페인팅 모델로 10B급 성능 달성

0.22B 파라미터로 10B급 성능 구현 및 추론 속도 15배 가속

AI/MLadvanced13 분 소요2026년 6월 24일

Dev.to

12B Diffusion Transformer 기반의 Raw-Turbo 이원화 워크플로우를 통한 2초 내 고해상도 생성 구현

Enterprise AI Image Generation: The Custom Edge in 2026

AI/MLadvanced47 분 소요2026년 6월 23일

Dev.to

GLM-5.2: 744B 파라미터 규모와 40B 연산 비용의 효율적 분리

GLM-5.2 Becomes the Top Open-Weights Model: Active vs Total Parameters

AI/MLintermediate18 분 소요2026년 6월 23일

Dev.to

RTX 3090 기반 Local LLM 운용 비용 분석: 모델 크기에 따른 전력 효율 역전 현상

How Much Does It Actually Cost to Run a Local LLM? (€ per Million Tokens, Measured)

AI/MLintermediate3 분 소요2026년 6월 22일

Dev.to

DeepSeek V4-Pro의 75% 가격 인하와 Gemini 3.5 Flash의 시장 진입

AI API Price War: DeepSeek V4-Pro Cuts 75% & Gemini 3.5 Flash Lands

AI/MLintermediate12 분 소요2026년 6월 22일

Dev.to

270M부터 7B까지 모델 스케일별 성능 비교를 통한 비용 최적화 설계

If a 270M Model Already Worked, Why Did I Fine-Tune a 7B One?

AI/MLintermediate8 분 소요2026년 6월 21일

Dev.to

Wafer-Scale Engine 도입 통한 Inference 비용 32% 절감 및 처리 속도 21배 향상

The AI Hardware Stack Is Being Rebuilt From the Wafer Up

Infrastructureadvanced10 분 소요2026년 6월 20일

Dev.to

198B Sparse MoE 기반 Step 3.7 Flash: 추론 비용 89% 절감 및 성능 안정화

Step 3.7 Flash is a drop-in — except for one endpoint detail

AI/MLintermediate28 분 소요2026년 6월 18일

Dev.to

Python 의존성 제거 및 GGUF 포팅을 통한 Parakeet ASR의 C++ 단일 바이너리화

NeMo out, GGUF in: how parakeet.cpp ports NVIDIA ASR to C++

AI/MLadvanced19 분 소요2026년 6월 18일

Dev.to

Speculative Decoding의 수치적 불일치 해결을 통한 1.9배 Throughput 확보 및 신뢰성 검증

Speculative decoding shifted our output distribution and evals missed it

AI/MLadvanced12 분 소요2026년 6월 18일

Dev.to

Winograd fp16 정밀도 손실로 인한 Small Object mAP 7% 하락 해결

Winograd convolutions cost us 2 mAP and we didn't notice for a month

AI/MLadvanced11 분 소요2026년 6월 17일

Dev.to

Closed-source AI 탈피를 통한 비용 절감 및 Open-source LLM 기반 유연한 추론 아키텍처 구축

Notion AI's Pricing Trap: Why I Went Open Source Instead

AI/MLintermediate24 분 소요2026년 6월 16일