피드로 돌아가기
Claude Feels Slow. But Is Moving a Team to Open-Weight Models Actually the Fix?
Dev.toDev.to
AI/ML

10명 엔지니어 팀이 Claude TTFT 지연을 정밀 측정하고 공유 GPU 인프라 환경에서 오픈가중 모델 전환

Claude Feels Slow. But Is Moving a Team to Open-Weight Models Actually the Fix?

Aviad Rozenhek2026년 3월 30일6intermediate

Context

Claude가 팀에서 느리게 느껴지는 문제를 해결하기 위해 약 3,000회의 API 호출을 측정했다. TTFT(Time to First Token) p50이 4.2~6.8초, p90이 14.5~28.1초로 측정되었고 디코딩 속도(176 tok/s)는 문제가 아니었다.

Technical Solution

  • TTFT 개선이 핵심 과제임을 정량적으로 입증했다
  • 자기 호스팅 옵션으로 Qwen3-Coder-Next, MiniMax M2.5, DeepSeek V3.2를 vLLM/SGLang 엔진과 pairing 했다
  • 월 $4,500 예산 기준으로 5×H100(Vast.ai), 3×H100(Lambda), 4×H200 등 GPU 구성별 비용을 비교했다
  • 10명 엔지니어가 하나의 GPU 클러스터를 공유하는 환경에서 큐잉 효과를 고려했다

Impact

자체 호스팅 TTFT는 ~160ms로 개선되지만 공유 인프라에서는 큐잉 지연이 추가되어 개별 TTFT 개선이 팀 전체 성능 개선으로 바로 연결되지 않는다.

Key Takeaway

개별 모델 벤치마크의 TTFT 개선 수치는 공유 인프라 환경에서 팀 단위 스텝 시간으로 환산하면 기대보다 미미하다.


LLM 성능 문제가 TTFT에서 비롯되는 환경에서 자기 호스팅으로 전환 시 개인 GPU 성능이 아닌 팀 공유 인프라의 큐잉 패턴까지 함께 분석해야 실제 개발자 경험 개선 효과를 예측할 수 있다

원문 읽기