피드로 돌아가기
Dev.toAI/ML
원문 읽기
Mechanical Task의 Local LLM 오프로딩을 통한 비용 90% 절감 및 Quota 최적화
I tracked every Claude Code call for 30 days. Here's the cost breakdown that justified switching to Gemma.
AI 요약
Context
Claude Code의 모든 터미널 요청을 Frontier Model인 Sonnet으로 처리함에 따라 불필요한 Token 비용 발생 및 주간 Quota 소진 가속화 문제 직면. 단순 반복성 작업(Mechanical Work)과 고도의 추론이 필요한 작업(Strategic Work)의 구분이 없는 단일 모델 아키텍처의 비효율성 분석.
Technical Solution
- Thin Shell Script 기반의 Wrapper 구현을 통한 요청 단계의 인터셉트 및 로깅 구조 설계
- Task Type을 Lint, Refactor, Debug, Architecture 등으로 분류하는 Classification Layer 도입
- 단순 파일 조작 및 포맷팅 등 Mechanical Task는 Local Ollama(Gemma-7B)로 라우팅하는 Two-Engine 패턴 적용
- Local Model의 처리 결과에 대한 Quality Rating(1-5) 기반의 Feedback Loop 구축
- Gemma 처리 실패 시 Sonnet으로 재요청하는 Fallback 메커니즘(Bounce to Sonnet) 적용
- 업무 성격에 따른 모델 분리 배치를 통해 High-Reasoning 자원을 Strategic Task에 집중적으로 할당
실천 포인트
1. 현재 워크로드의 Mechanical vs Strategic 비율 측정
2. 단순 반복 작업(Lint, Format, 단순 Replace) 식별 및 Local LLM 전이 가능성 검토
3. LLM 요청 전단계에 Task Classifier를 배치하여 적절한 모델로 라우팅하는 파이프라인 설계
4. Local 모델의 성능 한계를 보완할 수 있는 Explicit Fallback 전략 수립