피드로 돌아가기
From 30 Minutes to 8: How LLM-Mode Reflect Works
Dev.toDev.to
AI/ML

Overhead 제거를 통한 Reflect 단계 실행 시간 35분에서 8분으로 단축

From 30 Minutes to 8: How LLM-Mode Reflect Works

IT Lackey2026년 6월 4일7intermediate

Context

기존 Agent mode는 매 Reflect 호출마다 subprocess를 생성하여 Cold-start overhead와 컨텍스트 재구성 비용이 발생함. stateless한 추론 작업임에도 불구하고 불필요한 Tool-use 및 외부 컨텍스트 접근 권한을 포함한 무거운 실행 모델을 유지한 것이 병목 지점으로 작용함.

Technical Solution

  • Subprocess 생성을 배제하고 Direct HTTP Call 기반의 LLM mode로 전환하여 Cold-start latency 제거
  • Reflect 작업의 입력값(Asset text, Metadata, Prompt)이 고정적이라는 특성을 활용해 컨텍스트를 정적으로 사전 조립(Statically pre-assembled)하는 구조 설계
  • 동일 Context Window 내에서 Assistant turn을 활용한 Multi-turn self-refine 기법을 도입하여 1회 호출 내 일관성 및 품질 향상
  • supportsJsonSchema 설정을 통한 Structured Output 적용으로 Heuristic 기반의 파싱 로직을 제거하고 Schema validation 기반의 데이터 정합성 확보
  • 동적 컨텍스트(Search, File read)가 필요한 경우에만 Agent mode를 유지하는 전략적 분기 적용

- LLM 호출 시 Tool-use나 동적 컨텍스트가 필수적인지 검토하여 호출 모델(Agent vs Direct) 결정 - 반복적인 추론 작업에서 프로세스 생성/종료 비용이 발생하는지 Latency 측정 - 비정형 텍스트 파싱 오류 해결을 위해 JSON Schema 기반의 Structured Output 도입 검토 - 단일 호출 결과의 품질 저하 시 Multi-turn self-refine 패턴 적용 가능성 확인

원문 읽기