피드로 돌아가기
Dev.toAI/ML
원문 읽기
전통적 분산 시스템과 LLM 특화 제약 조건의 통합 설계 전략
AI System Design Interview Questions: ChatGPT, RAG, LLM Inference, and Agents
AI 요약
Context
전통적인 결정론적(Deterministic) 서비스와 달리 LLM 시스템은 확률적 출력과 높은 계산 비용이라는 고유한 특성을 가짐. CPU 중심의 자원 관리에서 GPU 메모리 및 가속기 중심의 제약 사항으로 패러다임이 전환된 상황임.
Technical Solution
- Time to First Token 및 Inter-token Latency 최적화를 통한 Streaming generation 구조 설계
- GPU 메모리 점유 최적화를 위한 Batching 및 Inference scheduling 전략 도입
- 단순 가용성을 넘어 Groundedness 및 Hallucination rate를 포함한 품질 측정 지표의 아키텍처 통합
- Application Layer와 Model Layer의 명확한 분리를 통한 프롬프트 구성 및 모델 라우팅 로직의 독립적 진화 가능 구조 설계
- Vector Retrieval 및 Context Window 관리를 통한 RAG 기반의 외부 데이터 주입 체계 구축
- 정해진 성공/실패 외에 Low-quality response 및 Safety violation과 같은 소프트 실패 모드 탐지 로직 설계
실천 포인트
1. TTFT(Time to First Token)와 전체 응답 시간 중 무엇이 사용자 경험에 더 치명적인지 정의했는가
2. GPU 메모리 한계를 고려한 요청 큐잉 및 배칭 전략이 설계에 반영되었는가
3. 모델의 확률적 오류를 잡아낼 수 있는 Evaluation platform 및 Safety filter가 파이프라인에 포함되었는가
4. RAG 도입 시 Retrieval quality와 생성 결과의 Groundedness를 측정할 지표를 수립했는가