Model Hierarchy 도입을 통한 LLM 비용 절감 및 분석 효율 최적화

We decreased our LLM costs with Opus

2026년 4월 29일7분advanced

AI 요약

Context

방대한 CI 로그 분석을 위해 단일 LLM(Sonnet 4.0)을 사용했으나 높은 비용과 성능 불균형 문제 발생. 로그의 80%가 중복 이슈임에도 매번 고비용 모델이 처리하는 구조적 낭비 존재.

Technical Solution

Triager 패턴 도입을 통한 Haiku 기반의 1차 필터링으로 중복 이슈 80%를 Opus 도달 전 차단
pgvector 기반 Semantic Search와 Exact Matching을 결합하여 Haiku의 중복 탐지 정확도 향상
Push 방식의 프롬프트 대신 ClickHouse SQL Interface를 통한 Pull 방식의 컨텍스트 추출로 모델 편향 제거
Opus(Planner)가 가설을 세우고 Haiku(Worker)가 세부 조사를 수행하는 계층적 Multi-agent 구조 설계
Sub-agent의 depth를 1단계로 제한하여 Unbounded Fan-out으로 인한 비용 폭증 방지
Sub-agent의 요약 결과만 Orchestrator에 전달하는 Context Hygiene 전략으로 추론 품질 유지

Impact

Triager 매칭 시 전체 조사 비용 대비 약 25배 비용 절감
Haiku가 전체 Input Token의 65%를 처리하며 전체 LLM 지출의 36%만 점유
Model Hierarchy 미적용 대비 일일 비용 50% 이상 절감

실천 포인트

- 고비용 모델 전 단계에 전용 Task를 가진 가벼운 Triager 모델 배치를 검토하십시오. - LLM에 전체 데이터를 Push하기보다 SQL 등 인터페이스를 통해 필요한 데이터만 Pull하도록 설계하십시오. - 에이전트 간 역할 분담 시 'Planning(고비용)'과 'Execution(저비용)'을 엄격히 분리하십시오. - 무분별한 에이전트 생성을 막기 위해 재귀 호출 깊이(Depth) 제한 설정을 반드시 적용하십시오.

태그

#Cost Optimization #LLM orchestration #Model Hierarchy #RAG #Semantic Search

원문 읽기