Thinking Token 제어로 LLM 운영 비용을 유저당 $1.20에서 $0.05로 95% 이상 절감

I built a Telegram bot that reads 70 arXiv papers a day so I don't have to

landigf2026년 4월 11일9분intermediate

AI 요약

Context

방대한 arXiv 논문 데이터의 정보 과잉으로 인한 인지 부하와 기존 뉴스레터의 낮은 가독성 문제 발생. 초기 버전의 긴 텍스트 기반 UX가 유저 이탈을 유발하며 LLM API 호출 비용 상승으로 인한 수익성 악화 직면.

Technical Solution

Cloud Scheduler와 Cloud Run Job을 활용한 비동기 배치 처리 기반의 데이터 파이프라인 구축
모든 유저를 위한 단일 arXiv Fetch 후 Firestore Cache에 저장하는 Multi-tenant 구조를 통한 API 호출 최적화
Gemini 2.5 Flash의 thinking_budget=0 설정을 통해 불필요한 추론 토큰 생성을 차단하여 출력 비용 최소화
Gemini 2.5 Flash-Lite 모델을 별도로 운용하여 메인 콘텐츠에서 핵심 요약 {title, teaser}만 추출하는 2단계 파이프라인 설계
Telegram Bot API의 Preview Card와 Interaction 기반의 점진적 정보 공개(Progressive Disclosure) UX 적용
Telegram Stars 결제 시스템 도입을 통한 결제 인프라 구축 비용 및 PCI 준수 복잡성 제거

실천 포인트

- LLM SDK 사용 시 `thinking_config` 또는 유사한 추론 토큰 설정의 기본값이 'auto'인지 확인 후 작업 성격에 따라 명시적 제어 - 전체 콘텐츠 생성과 요약/분류 작업을 분리하여 고성능 모델과 경량 모델(Flash-Lite 등)을 혼합 사용하는 Tiered LLM Architecture 검토 - 사용자 피드백 기반의 UX 실패 지점을 데이터(Firestore 로그 등)로 정량화하여 빠르게 Pivot 수행

태그

#Gemini Flash #LLM Cost Optimization #Progressive Disclosure #Serverless Job #Multi-Tenant Architecture

원문 읽기