피드로 돌아가기
Dev.toAI/ML
원문 읽기
Research-first Agent 도입을 통한 AI 엔지니어링 비용 62% 절감 및 WER 16.25%p 개선
I kept using Claude Code. Added one thing to it. Cut AI engineering costs by 62%.
AI 요약
Context
CPU-only Azure VM 환경에서 Parakeet STT 모델의 성능 평가를 위해 Claude Code 단독 사용 시, 관성적인 라이브러리 선택과 반복적인 인터랙티브 루프로 인한 토큰 낭비 및 최적화 실패 문제 발생.
Technical Solution
- MCP 기반의 AI Agent(Neo)를 도입하여 코드 작성 전 벤치마크 데이터 및 모델 카드를 분석하는 Research-first 단계 추가
- 기본 HF Transformers 대신 CPU 환경에 최적화된 ONNX Runtime 및 AVX2-optimized kernels를 선택하여 추론 효율 극대화
- espeak-ng 대신 훈련 데이터 분포에 근접한 gTTS를 선택하여 모델 성능 평가의 신뢰도 확보
- 대화형 반복 구조를 제거하고 10개의 하위 작업으로 구성된 Linear Execution Plan을 수립하여 토큰 소모 최소화
- 단일 통합 평가 클래스 구조에서 개별 모델별 독립 스크립트 구조로 변경하여 디버깅 가시성 및 검증 정밀도 향상
Impact
- 비용: $1.96에서 $0.74로 감소하여 AI 엔지니어링 비용 62% 절감
- 정확도: WER(Word Error Rate) 20.9%에서 4.65%로 16.25%p 개선
- 성능: RTF(Real-Time Factor) 0.519에서 0.328로 약 37% 처리량 향상
실천 포인트
- AI/ML 파이프라인 구축 시 관성적인 프레임워크 선택 대신 하드웨어 제약 사항에 맞는 Runtime(ONNX, TensorRT 등) 벤치마크 우선 검토 - 반복적인 Prompt-and-Fix 루프가 예상되는 복잡한 태스크는 '분석-계획-실행'의 선형적 워크플로우를 가진 Agent 구조로 전환 - 성능 평가 시 데이터셋의 특성(예: TTS 엔진 종류)이 모델 자체의 성능보다 더 큰 변수로 작용할 수 있음을 인지하고 통제 변수 설정