피드로 돌아가기
Dev.toAI/ML
원문 읽기
10명 엔지니어 팀이 Claude TTFT 지연을 정밀 측정하고 공유 GPU 인프라 환경에서 오픈가중 모델 전환
Claude Feels Slow. But Is Moving a Team to Open-Weight Models Actually the Fix?
AI 요약
Context
Claude가 팀에서 느리게 느껴지는 문제를 해결하기 위해 약 3,000회의 API 호출을 측정했다. TTFT(Time to First Token) p50이 4.2~6.8초, p90이 14.5~28.1초로 측정되었고 디코딩 속도(176 tok/s)는 문제가 아니었다.
Technical Solution
- TTFT 개선이 핵심 과제임을 정량적으로 입증했다
- 자기 호스팅 옵션으로 Qwen3-Coder-Next, MiniMax M2.5, DeepSeek V3.2를 vLLM/SGLang 엔진과 pairing 했다
- 월 $4,500 예산 기준으로 5×H100(Vast.ai), 3×H100(Lambda), 4×H200 등 GPU 구성별 비용을 비교했다
- 10명 엔지니어가 하나의 GPU 클러스터를 공유하는 환경에서 큐잉 효과를 고려했다
Impact
자체 호스팅 TTFT는 ~160ms로 개선되지만 공유 인프라에서는 큐잉 지연이 추가되어 개별 TTFT 개선이 팀 전체 성능 개선으로 바로 연결되지 않는다.
Key Takeaway
개별 모델 벤치마크의 TTFT 개선 수치는 공유 인프라 환경에서 팀 단위 스텝 시간으로 환산하면 기대보다 미미하다.
실천 포인트
LLM 성능 문제가 TTFT에서 비롯되는 환경에서 자기 호스팅으로 전환 시 개인 GPU 성능이 아닌 팀 공유 인프라의 큐잉 패턴까지 함께 분석해야 실제 개발자 경험 개선 효과를 예측할 수 있다