피드로 돌아가기
Dev.toAI/ML
원문 읽기
OpenAI Batch 도입으로 문서 간 간섭 제거 및 비용 50% 절감
I Built a Local LLM Rig to Escape API Bills. Then I Paid OpenAI Again.
AI 요약
Context
단일 문서 추출 작업이 반복되는 파일링 파이프라인에서 Local LLM 기반 Batch 처리의 효율성 저하 발생. 특히 Cross-document Attention으로 인한 데이터 오염 및 Neo4j 롤백 비용 발생에 따른 구조적 해결책 필요.
Technical Solution
- 문서 간 독립성 보장을 위한 JSONL 기반 Line-isolated 데이터 처리 구조 채택
- vLLM의 4-bit MoE 미지원 및 CUDA 드라이버 버전 불일치(12.8 vs 12.9)로 인한 Local Batch Lane 폐기
- Gemini SDK의 암묵적 Inline-concatenation으로 인한 Context Leak 발생 확인 및 제거
- llama.cpp의 Graph Optimizer Segfault 해결을 위해 GGML_CUDA_DISABLE_GRAPHS=1 설정 적용
- Live Serving은 RTX 4090 기반 Local LLM을 유지하여 응답성 확보 및 Batch 작업은 API로 분리하는 하이브리드 설계
Impact
- OpenAI Batch API 활용을 통한 비용 50% 절감
- 100개 문서 기준 2.7분 내 처리 완료 및 429 Error zero 달성
- 문서당 처리 비용 약 1 cent 수준으로 최적화
실천 포인트
1. Batch 처리 설계 시 문서 간 Context Leak 방지를 위한 Isolation 메커니즘 검증
2. Local LLM 도입 전 vLLM 등 추론 엔진의 Quantization 지원 범위와 호스트 CUDA 버전 일치 여부 확인
3. 실시간 응답이 필요한 Live Serving과 처리량이 중요한 Batch Lane의 인프라 분리 검토