피드로 돌아가기
Dev.toAI/ML
원문 읽기
Overhead 제거를 통한 Reflect 단계 실행 시간 35분에서 8분으로 단축
From 30 Minutes to 8: How LLM-Mode Reflect Works
AI 요약
Context
기존 Agent mode는 매 Reflect 호출마다 subprocess를 생성하여 Cold-start overhead와 컨텍스트 재구성 비용이 발생함. stateless한 추론 작업임에도 불구하고 불필요한 Tool-use 및 외부 컨텍스트 접근 권한을 포함한 무거운 실행 모델을 유지한 것이 병목 지점으로 작용함.
Technical Solution
- Subprocess 생성을 배제하고 Direct HTTP Call 기반의 LLM mode로 전환하여 Cold-start latency 제거
- Reflect 작업의 입력값(Asset text, Metadata, Prompt)이 고정적이라는 특성을 활용해 컨텍스트를 정적으로 사전 조립(Statically pre-assembled)하는 구조 설계
- 동일 Context Window 내에서 Assistant turn을 활용한 Multi-turn self-refine 기법을 도입하여 1회 호출 내 일관성 및 품질 향상
- supportsJsonSchema 설정을 통한 Structured Output 적용으로 Heuristic 기반의 파싱 로직을 제거하고 Schema validation 기반의 데이터 정합성 확보
- 동적 컨텍스트(Search, File read)가 필요한 경우에만 Agent mode를 유지하는 전략적 분기 적용
실천 포인트
- LLM 호출 시 Tool-use나 동적 컨텍스트가 필수적인지 검토하여 호출 모델(Agent vs Direct) 결정 - 반복적인 추론 작업에서 프로세스 생성/종료 비용이 발생하는지 Latency 측정 - 비정형 텍스트 파싱 오류 해결을 위해 JSON Schema 기반의 Structured Output 도입 검토 - 단일 호출 결과의 품질 저하 시 Multi-turn self-refine 패턴 적용 가능성 확인