피드로 돌아가기
We decreased our LLM costs with Opus
Hacker NewsHacker News
AI/ML

Model Hierarchy 도입을 통한 LLM 비용 절감 및 분석 효율 최적화

We decreased our LLM costs with Opus

2026년 4월 29일7advanced

Context

방대한 CI 로그 분석을 위해 단일 LLM(Sonnet 4.0)을 사용했으나 높은 비용과 성능 불균형 문제 발생. 로그의 80%가 중복 이슈임에도 매번 고비용 모델이 처리하는 구조적 낭비 존재.

Technical Solution

  • Triager 패턴 도입을 통한 Haiku 기반의 1차 필터링으로 중복 이슈 80%를 Opus 도달 전 차단
  • pgvector 기반 Semantic Search와 Exact Matching을 결합하여 Haiku의 중복 탐지 정확도 향상
  • Push 방식의 프롬프트 대신 ClickHouse SQL Interface를 통한 Pull 방식의 컨텍스트 추출로 모델 편향 제거
  • Opus(Planner)가 가설을 세우고 Haiku(Worker)가 세부 조사를 수행하는 계층적 Multi-agent 구조 설계
  • Sub-agent의 depth를 1단계로 제한하여 Unbounded Fan-out으로 인한 비용 폭증 방지
  • Sub-agent의 요약 결과만 Orchestrator에 전달하는 Context Hygiene 전략으로 추론 품질 유지

Impact

  • Triager 매칭 시 전체 조사 비용 대비 약 25배 비용 절감
  • Haiku가 전체 Input Token의 65%를 처리하며 전체 LLM 지출의 36%만 점유
  • Model Hierarchy 미적용 대비 일일 비용 50% 이상 절감

- 고비용 모델 전 단계에 전용 Task를 가진 가벼운 Triager 모델 배치를 검토하십시오. - LLM에 전체 데이터를 Push하기보다 SQL 등 인터페이스를 통해 필요한 데이터만 Pull하도록 설계하십시오. - 에이전트 간 역할 분담 시 'Planning(고비용)'과 'Execution(저비용)'을 엄격히 분리하십시오. - 무분별한 에이전트 생성을 막기 위해 재귀 호출 깊이(Depth) 제한 설정을 반드시 적용하십시오.

원문 읽기