피드로 돌아가기
Dev.toAI/ML
원문 읽기
Thinking Token 제어로 LLM 운영 비용을 유저당 $1.20에서 $0.05로 95% 이상 절감
I built a Telegram bot that reads 70 arXiv papers a day so I don't have to
AI 요약
Context
방대한 arXiv 논문 데이터의 정보 과잉으로 인한 인지 부하와 기존 뉴스레터의 낮은 가독성 문제 발생. 초기 버전의 긴 텍스트 기반 UX가 유저 이탈을 유발하며 LLM API 호출 비용 상승으로 인한 수익성 악화 직면.
Technical Solution
- Cloud Scheduler와 Cloud Run Job을 활용한 비동기 배치 처리 기반의 데이터 파이프라인 구축
- 모든 유저를 위한 단일 arXiv Fetch 후 Firestore Cache에 저장하는 Multi-tenant 구조를 통한 API 호출 최적화
- Gemini 2.5 Flash의
thinking_budget=0설정을 통해 불필요한 추론 토큰 생성을 차단하여 출력 비용 최소화 - Gemini 2.5 Flash-Lite 모델을 별도로 운용하여 메인 콘텐츠에서 핵심 요약 {title, teaser}만 추출하는 2단계 파이프라인 설계
- Telegram Bot API의 Preview Card와 Interaction 기반의 점진적 정보 공개(Progressive Disclosure) UX 적용
- Telegram Stars 결제 시스템 도입을 통한 결제 인프라 구축 비용 및 PCI 준수 복잡성 제거
실천 포인트
- LLM SDK 사용 시 `thinking_config` 또는 유사한 추론 토큰 설정의 기본값이 'auto'인지 확인 후 작업 성격에 따라 명시적 제어 - 전체 콘텐츠 생성과 요약/분류 작업을 분리하여 고성능 모델과 경량 모델(Flash-Lite 등)을 혼합 사용하는 Tiered LLM Architecture 검토 - 사용자 피드백 기반의 UX 실패 지점을 데이터(Firestore 로그 등)로 정량화하여 빠르게 Pivot 수행
태그