피드로 돌아가기
Dev.toAI/ML
원문 읽기
AWS Serverless 기반 Scatter-Gather 구조로 $0.25에 구현한 Reasoning Engine
We Built a Poor Man’s o1 on AWS for $0.25 – And You Can Too
AI 요약
Context
단일 LLM의 순차적 토큰 생성 방식은 초기 단계의 오류가 전체 결과의 품질 저하로 이어지는 결정론적 한계 존재. 고비용의 o1 모델을 대체하여 투명성과 비용 효율성을 확보한 분산 추론 아키텍처 필요성 대두.
Technical Solution
- Step Functions Distributed Map을 통한 50개의 Lambda 인스턴스 동시 실행 구조 설계
- Claude 3 Haiku 모델에 Temperature 0.9를 적용하여 응답의 다양성을 극대화한 Scatter 단계 구현
- S3 버킷을 중간 저장소로 활용하여 각 워커의 독립적인 추론 결과물을 병렬 수집
- Claude 3.5 Sonnet을 Judge 모델로 채택하여 50개의 후보군 중 최적 아이디어를 합성하는 Gather 로직 적용
- Context Window 초과 방지를 위해 Sub-judge를 도입한 Tournament Bracket 방식의 계층적 필터링 구조 설계
- Bedrock Throttling 회피를 위해 Step Functions의 MaxConcurrency 설정을 통한 트래픽 제어
실천 포인트
1. 실시간 챗봇보다는 리포트 생성이나 코드 리뷰 등 비동기 작업에 우선 적용
2. Bedrock API 할당량 확인 및 MaxConcurrency 설정을 통한 ThrottlingException 방지
3. 입력 데이터 규모 증가 시 단일 Judge 대신 계층적 토너먼트 구조 검토
4. Judge 모델의 System Prompt에 명확한 기각 기준과 합성 가이드라인 정의