LLM API 서비스 대상 대량 Token 생성 공격을 통한 가용성 저하 및 비용 리스크 분석

Is it possible overload a AI as a Service with multiples requests ?

sc0v0ne2026년 6월 13일1분intermediate

AI 요약

Context

에이전트 기반 무거운 기능이 없는 일반 Chat 서비스의 단순한 인프라 구조 분석. 요청 제어 장치인 Queuing 시스템의 부재로 인해 대량의 무의미한 Token 생성 요청에 취약한 상태.

실천 포인트

1. 사용자별/API Key별 분당 Token 생성량(TPM) 및 요청 수(RPM) 제한 설정 여부 확인

2. 갑작스러운 트래픽 폭주 대응을 위한 Message Queue 기반의 비동기 처리 구조 도입 검토

3. 이상 징후 탐지(Anomaly Detection)를 통한 비정상적 대량 Token 생성 계정 자동 차단 로직 구현

4. 서비스 비용 최적화를 위한 Token Generation 상한선 설정 및 모니터링 체계 구축

태그