Overhead 제거를 통한 Reflect 단계 실행 시간 35분에서 8분으로 단축

From 30 Minutes to 8: How LLM-Mode Reflect Works

IT Lackey2026년 6월 4일7분intermediate

AI 요약

Context

기존 Agent mode는 매 Reflect 호출마다 subprocess를 생성하여 Cold-start overhead와 컨텍스트 재구성 비용이 발생함. stateless한 추론 작업임에도 불구하고 불필요한 Tool-use 및 외부 컨텍스트 접근 권한을 포함한 무거운 실행 모델을 유지한 것이 병목 지점으로 작용함.

Technical Solution

Subprocess 생성을 배제하고 Direct HTTP Call 기반의 LLM mode로 전환하여 Cold-start latency 제거
Reflect 작업의 입력값(Asset text, Metadata, Prompt)이 고정적이라는 특성을 활용해 컨텍스트를 정적으로 사전 조립(Statically pre-assembled)하는 구조 설계
동일 Context Window 내에서 Assistant turn을 활용한 Multi-turn self-refine 기법을 도입하여 1회 호출 내 일관성 및 품질 향상
supportsJsonSchema 설정을 통한 Structured Output 적용으로 Heuristic 기반의 파싱 로직을 제거하고 Schema validation 기반의 데이터 정합성 확보
동적 컨텍스트(Search, File read)가 필요한 경우에만 Agent mode를 유지하는 전략적 분기 적용

실천 포인트

- LLM 호출 시 Tool-use나 동적 컨텍스트가 필수적인지 검토하여 호출 모델(Agent vs Direct) 결정 - 반복적인 추론 작업에서 프로세스 생성/종료 비용이 발생하는지 Latency 측정 - 비정형 텍스트 파싱 오류 해결을 위해 JSON Schema 기반의 Structured Output 도입 검토 - 단일 호출 결과의 품질 저하 시 Multi-turn self-refine 패턴 적용 가능성 확인

태그

#Latency Optimization #Multi-turn Self-refine #Stateless Inference #Cold Start #Structured-Output

원문 읽기