피드로 돌아가기
Dev.toAI/ML
원문 읽기
다중 Ollama 엔드포인트 기반의 로컬 AI 어시스턴트 구축으로 응답 속도 3배 개선
I Built an AI Assistant That Lives in My Telegram — Here's What 6 Months Taught Me
AI 요약
Context
다양한 LLM 모델의 분산 배치로 인한 컨텍스트 스위칭 비용과 관리 복잡성 발생. 단일 브라우저나 터미널 기반 접근 방식이 초래하는 사용자 경험의 단절과 높은 마찰력 해결 필요.
Technical Solution
- Telegram Bot API를 인터페이스로 활용하여 모바일/데스크톱 통합 진입점 구축
- Keyword Matching 기반의 Intent Classifier를 도입하여 요청 성격에 따른 최적 모델 라우팅 수행
- Mac Mini(Light), GPU PC(Coder/Vision), Ubuntu(Fallback)로 구성된 다중 Ollama 엔드포인트 분산 처리 구조 설계
- Chroma DB와 nomic-embed-text를 활용한 Local RAG 구현으로 개인화된 문서 질의응답 성능 확보
- Health Check 및 Fallback Chain 설계를 통해 개별 노드 장애 시 하위 모델로 자동 전환되는 가용성 확보
- Whisper 모델을 통합한 Voice-to-Text 파이프라인 구축으로 입력 인터페이스 확장
Impact
- 전용 Router 도입을 통한 모델 응답 시간 3배 단축
- 요청 유형에 따라 2~8초 내외의 추론 속도 달성
- 소프트웨어 비용 $0 및 월 전력비 약 $8 수준의 초저비용 인프라 운영
실천 포인트
- 인프라 장애 시 서비스 완전 중단 대신 기능 제한적 제공을 위한 Graceful Degradation 설계 검토 - 모든 모델 요청에 고사양 모델을 할당하는 대신 Task 복잡도에 따른 모델 Tiering 전략 수립 - 시스템 디버깅 및 성능 병목 지점 파악을 위해 모델별 추론 시간 및 라우팅 로그 기록 체계 구축 - 사용자 접점 앱 내에 AI 기능을 통합하여 마찰력을 최소화하는 UX 설계 우선 고려