피드로 돌아가기
I thought we needed another agent framework — turns out we needed a job_id and a boring config folder
Dev.toDev.to
AI/ML

Framework 의존성 제거와 job_id 기반 Observability 확보를 통한 Agent Ops 최적화

I thought we needed another agent framework — turns out we needed a job_id and a boring config folder

Lars Winstand2026년 5월 20일9intermediate

Context

많은 팀이 Agent 성능 향상을 위해 새로운 Framework 도입에 집중하며 아키텍처 복잡도를 높이는 오류를 범함. 실제 운영 환경에서는 지능 수준보다 Runaway Loop, 비용 통제 실패, 추적 불가능한 실행 경로 등 Operational 문제로 인한 시스템 붕괴가 빈번하게 발생함.

Technical Solution

  • Brain-Runtime-Ops 3계층 분리 설계를 통한 Framework 종속성 제거 및 이식성 확보
  • Shared Config Layer 도입으로 Prompts, Tool Contracts, Policies를 런타임 외부로 추출하여 관리
  • 단일 실행 단위에 고유 job_id를 부여하여 LLM 호출, Tool invocation, Retry, Fallback 전체 과정을 통합 추적하는 Operational Spine 구축
  • TASK_TO_MODEL 매핑 테이블 기반의 Explicit Routing Policy를 적용하여 단순 작업의 저비용 모델 처리 및 복잡 추론의 고성능 모델 할당
  • Runtime을 Disposable한 구성 요소로 정의하여 인프라 및 프레임워크 변경 시 비즈니스 로직 영향 최소화 설계

- 런타임 외부의 shared-brain 폴더(prompts, tools, policies) 구성 여부 확인 - Request ID가 아닌, 전체 워크플로우를 관통하는 job_id 기반의 Traceability 구현 - 모델 선택 로직을 프레임워크 추상화 계층이 아닌 명시적인 Routing Config(YAML 등)로 관리 - 단순 반복 작업(Heartbeat, Polling)을 저비용 모델로 강제 라우팅하는 비용 제어 정책 수립

원문 읽기