피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 파이프라인 병렬화와 격리 설계를 통한 AI 선물 추천 서비스 구축
Show Dev: I Built an AI Gift Whisperer in a Weekend
AI 요약
Context
기존 Monolith 구조에서 LLM의 긴 응답 시간과 이미지 생성 시 발생하는 메모리 스파이크가 전체 시스템의 안정성을 저해하는 병목 지점으로 작용함. 특히 특정 시즌의 트래픽 폭증 시 일반 CRUD 요청까지 차단하는 리소스 간섭 문제가 발생함.
Technical Solution
- Railway 기반의 독립 서비스 분리를 통한 Workload Isolation 설계로 장애 전파 범위(Blast Radius) 최소화
- 단순 단일 프롬프트를 지양하고 '특성 추출 $\rightarrow$ 후보 생성 $\rightarrow$ 재순위화 및 중복 제거 $\rightarrow$ 최종 결과 생성'으로 이어지는 다단계 Prompt Pipeline 구축
- 가격대별(Under 25, Under 75, Splurge) 병렬 API 호출 구조를 설계하여 결과물의 다양성을 확보하고 Latency를 기존 대비 약 50% 단축
- 이미지 모델의 해석 오류를 줄이기 위해 감성적 표현을 배제하고 정제된 핵심 키워드만 전달하는 Constraint-based Prompting 적용
- JSON Mode를 활용한 구조화된 데이터 응답 강제로 파싱 안정성 확보 및 후처리 로직 최적화
실천 포인트
1. LLM 응답의 다양성 부족 시 요청 단위를 세분화하여 병렬 호출하고 있는지 검토
2. 이미지 생성 프롬프트에서 모호한 형용사를 제거하고 구체적인 제약 조건을 설정했는지 확인
3. 고부하/장시간 실행 태스크가 메인 API 서버의 Event Loop를 차단하지 않도록 격리 환경 구축