Subagent delegation 최적화로 Tool failure 23% 감소 및 P95 대기 시간 5% 개선

How we made GitHub Copilot CLI more selective about delegation

Dylan Birtolo2026년 6월 12일8분advanced

AI 요약

Context

Agentic system 내 무분별한 Subagent 위임으로 인한 Coordination overhead 발생. 단순 작업 시에도 Subagent를 호출함으로써 불필요한 Tool call과 대기 시간이 증가하는 병목 지점 확인.

Technical Solution

LLM 기반의 Trajectory analysis를 통한 Orchestration 병목 구간의 정밀 식별
단순 Discovery 및 Edit 작업은 Main agent가 직접 처리하도록 Orchestration policy 변경
Broad exploration 및 Parallel execution이 필요한 복잡도 높은 작업으로 위임 범위 제한
Subagent 호출 시 Main agent가 대기하지 않고 독립적인 작업을 지속하는 Parallelism 구조 설계
Narrowest effective path에서 시작하여 복잡도 증가 시 단계적으로 Escalation 하는 계층적 처리 로직 적용

Impact

세션당 Tool failure 23% 감소 (Search tool 27%↓, Edit tool 18%↓)
User wait time 개선 (P95 5%↓, P75 3%↓)
Quality regression 없는 성능 최적화 달성

Key Takeaway

Agent 아키텍처에서 위임(Delegation)은 비용이 발생하는 작업이며, 단순 요약이 아닌 Task의 복잡도와 컨텍스트에 기반한 선택적 위임 전략이 전체 시스템의 Throughput과 신뢰성을 결정함.

실천 포인트

- Agent의 전체 실행 경로(Trajectory)를 LLM으로 분석하여 불필요한 Handoff 지점 탐색 - '단순 작업은 직접 처리, 복잡 작업은 위임'하는 명확한 Orchestration policy 수립 - 위임 후 결과를 기다리는 Blocking 방식에서 독립 작업을 병행하는 Non-blocking Parallelism 전환 검토 - P95 등 꼬리 지연 시간(Tail Latency)을 통해 오케스트레이션 오버헤드 측정

태그

#Latency Optimization #Orchestration #LLM #Agentic Workflow #Parallelism

원문 읽기