#moe 아티클 모음

GeekNews

Ornith-1.0 - 에이전트형 코딩을 위한 자기 개선 오픈소스 모델

강화학습 기반 Scaffold 최적화로 SWE-bench Verified 82.4% 달성

AI/MLadvanced15 분 소요1일 전

Dev.to

Durable Objects 런타임 개선 및 GLM-5.2 기반 IDOR 탐지 효율 극대화

Durable Objects + GLM-5.2 IDOR beats Claude

Infrastructureadvanced16 분 소요1일 전

Dev.to

RTX 5090 기반 Local LLM 에이전트 구현을 위한 GLM 모델군 적합성 분석

GLM Is the New Hotness, So Let's Test It On the Homelab

AI/MLintermediate30 분 소요2일 전

Dev.to

학습 안정성과 추론 효율을 극대화한 Modern Transformer 설계 전략

How Modern Transformer Blocks Work — From RMSNorm to MoE

AI/MLadvanced18 분 소요3일 전

GeekNews

GLM 5.2, Semgrep IDOR 벤치마크에서 Claude 앞서

GLM 5.2, 단순 프롬프트로 Claude Code 대비 IDOR 탐지 F1 39% 달성

Securityadvanced20 분 소요3일 전

Dev.to

Sparse Architecture 기반 On-Device AI의 추론 비용 $0 달성과 프라이버시 최적화

On-Device AI Just Got Real

AI/MLadvanced16 분 소요4일 전

Dev.to

llama.cpp 기반 로컬 LLM 런타임 구축을 통한 데이터 프라이버시 및 비용 제로화 달성

Getting Started with Ollama: Run LLMs Locally in 10 Minutes

AI/MLbeginner14 분 소요5일 전

Dev.to

Mistral OCR 4의 Bounding Box 도입 및 Baidu의 3B MoE 기반 로컬 OCR 공개

AI Dev Weekly #16: Mistral OCR 4, Claude Tag, Alibaba Caught Stealing, GPT-5.6 Delayed

AI/MLintermediate14 분 소요2026년 6월 25일

Hugging Face Blog

NeMo AutoModel 도입으로 MoE 학습 처리량 3.7배 향상 및 메모리 32% 절감

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

AI/MLadvanced28 분 소요2026년 6월 24일

GeekNews

Unlimited OCR — Baidu의 원샷 장문 파싱 모델

R-SWA 도입으로 KV 캐시를 상수로 유지하며 OmniDocBench 93.92% SOTA 달성

AI/MLadvanced20 분 소요2026년 6월 24일

GeekNews

GLM-5.2를 로컬에서 실행하는 방법

744B GLM-5.2 모델의 Dynamic GGUF 기반 로컬 실행 및 메모리 최적화

AI/MLadvanced28 분 소요2026년 6월 23일

Dev.to

Self-hosting LLM: VRAM 제약으로 인한 모델 Tier 하락과 제어권 확보의 Trade-off

The Open-Model Cost Chart Everyone's Sharing Is API Prices. Here's What Self-Hosting Actually Gets You (Measured)

AI/MLintermediate13 분 소요2026년 6월 23일

Hacker News

Mythos 전용 벤치마크를 통한 LLM 보안 취약점 탐지 능력 검증 및 분석

Will It Mythos?

Securityadvanced27 분 소요2026년 6월 23일

Dev.to

AI Agent 오케스트레이션 전환과 GPU 하드웨어 다변화 분석

Five things that caught my attention this week in AI tools and open-source models

AI/MLintermediate10 분 소요2026년 6월 22일

GeekNews

GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

GLM-5.2, GPT-5.5 대비 환각률 28% 달성 및 추론 효율성 증명

AI/MLadvanced21 분 소요2026년 6월 21일

Dev.to

96GB VRAM 환경에서 CPU 오케스트레이션 병목 해결 및 API 경제성 분석

I spent two weeks optimizing 96GB of VRAM for local LLMs. Paid APIs still won.

AI/MLadvanced4 분 소요2026년 6월 20일

Dev.to

MoE 아키텍처와 효율적 훈련으로 달성한 95% 비용 절감

Why Chinese AI Models Are 95% Cheaper — The Economics Explained

AI/MLadvanced20 분 소요2026년 6월 19일

Dev.to

최대 $10,000 투자로 구현하는 671B 파라미터급 Local AI 인프라 구축

Running Local Private AI Models – How And Why

AI/MLintermediate11 분 소요2026년 6월 19일

Dev.to

NVFP4 양자화 통한 Qwen3.6-35B VRAM 71GB에서 23GB로 3.06배 절감

Qwen3.6-35B NVFP4 runs on one H100 — A100 owners are out

AI/MLadvanced25 분 소요2026년 6월 18일

Dev.to

TTFT 200ms 미만 달성을 위한 시스템 레벨 LLM 최적화 전략

Optimizing LLM Model Performance for Real-Time Applications

AI/MLintermediate4 분 소요2026년 6월 18일