피드로 돌아가기
Dev.toAI/ML
원문 읽기
단일 LLM 호출의 분리를 통한 운영 비용 55% 절감 및 응답 품질 개선
How I Cut My AI Chatbot Costs by 55% With One Architecture Change
AI 요약
Context
GPT-4o-mini 기반의 단일 호출 아키텍처에서 과도한 System Prompt와 대화 이력 포함으로 인한 Token 낭비 발생. 특히 누적된 요약 정보와 불필요한 Context가 검색 루프를 유발하며 1M 메시지당 $300의 높은 비용을 초래함.
Technical Solution
- Search와 Response의 책임을 분리한 Two-Call 아키텍처로 전환
- Call #1(Search Call): 최신 메시지만 입력하여 검색 필요성 및 쿼리를 결정하는 최소 Context 설계
- Call #2(Response Call): 검색 결과와 제한된 최근 이력(6개 메시지) 및 페르소나만 결합한 응답 생성 구조
- Max Tokens의 공격적 설정: 도구 호출 결정 단계에 150~200 Token 제한을 적용하여 불필요한 생성 억제
- Context Pollution 제거: 누적 텍스트 요약 방식을 배제하고 검색 단계에서 History를 완전히 제거하여 중복 검색 루프 원천 차단
실천 포인트
- LLM 호출 전 각 컴포넌트(System Prompt, History, Summary)가 현재 작업에 필수적인지 검토 - Search/Lookup/API Call 결정 단계와 최종 응답 생성 단계를 별도 호출로 분리 - 고정된 Window 크기 대신 세션 경계나 주제 변경을 감지하는 가변적 Context 윈도우 적용 - 텍스트 기반 요약 대신 구조화된 데이터(KV Pair)를 활용한 Context 유지 방안 검토