피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Model Hierarchy 도입을 통한 LLM 비용 절감 및 분석 효율 최적화
We decreased our LLM costs with Opus
AI 요약
Context
방대한 CI 로그 분석을 위해 단일 LLM(Sonnet 4.0)을 사용했으나 높은 비용과 성능 불균형 문제 발생. 로그의 80%가 중복 이슈임에도 매번 고비용 모델이 처리하는 구조적 낭비 존재.
Technical Solution
- Triager 패턴 도입을 통한 Haiku 기반의 1차 필터링으로 중복 이슈 80%를 Opus 도달 전 차단
- pgvector 기반 Semantic Search와 Exact Matching을 결합하여 Haiku의 중복 탐지 정확도 향상
- Push 방식의 프롬프트 대신 ClickHouse SQL Interface를 통한 Pull 방식의 컨텍스트 추출로 모델 편향 제거
- Opus(Planner)가 가설을 세우고 Haiku(Worker)가 세부 조사를 수행하는 계층적 Multi-agent 구조 설계
- Sub-agent의 depth를 1단계로 제한하여 Unbounded Fan-out으로 인한 비용 폭증 방지
- Sub-agent의 요약 결과만 Orchestrator에 전달하는 Context Hygiene 전략으로 추론 품질 유지
Impact
- Triager 매칭 시 전체 조사 비용 대비 약 25배 비용 절감
- Haiku가 전체 Input Token의 65%를 처리하며 전체 LLM 지출의 36%만 점유
- Model Hierarchy 미적용 대비 일일 비용 50% 이상 절감
실천 포인트
- 고비용 모델 전 단계에 전용 Task를 가진 가벼운 Triager 모델 배치를 검토하십시오. - LLM에 전체 데이터를 Push하기보다 SQL 등 인터페이스를 통해 필요한 데이터만 Pull하도록 설계하십시오. - 에이전트 간 역할 분담 시 'Planning(고비용)'과 'Execution(저비용)'을 엄격히 분리하십시오. - 무분별한 에이전트 생성을 막기 위해 재귀 호출 깊이(Depth) 제한 설정을 반드시 적용하십시오.