피드로 돌아가기
Dev.toAI/ML
원문 읽기
WebGPU 기반 Local SLM 도입으로 API 비용 제로화 및 추론 속도 2초 내 달성
Client-Side AI: The Next Era of Consumer E-Commerce?
AI 요약
Context
기존 Enterprise AI 스택은 Bloomreach 및 Google Gemini 기반의 중앙 집중형 Cloud AI 구조로 설계됨. 이 방식은 고비용의 토큰 과금 체계와 브랜드 안전성을 위한 복잡한 Guardrail 설정 및 데이터 프라이버시 이슈라는 구조적 한계를 가짐.
Technical Solution
- WebGPU를 활용하여 사용자 브라우저 내 GPU 자원을 직접 사용하는 Edge AI 아키텍처로 전환
- Llama 3.2 1B 등 1B 미만의 Small Language Model(SLM)을 도입하여 약 300MB의 브라우저 캐시 페이로드로 구동
- SLM의 역할을 대화형 에이전트가 아닌 표준 JSON 객체를 출력하는 Intent Translator로 한정하여 인지적 한계 극복
- Few-shot 학습 시 발생하는 Overfitting 및 Hallucination 방지를 위해 Zero-Shot Prompting 기반의 Raw Data Parser 구조 설계
- AI가 생성한 JSON 데이터를 프론트엔드의 catalog.filter() 함수와 연동하여 동기식 UI 필터링 처리
실천 포인트
1. WebGPU 지원 여부에 따른 Graceful Degradation 전략 수립
2. SLM 사용 시 예시 기반 프롬프트 대신 엄격한 제약 조건의 Zero-Shot Prompting 검토
3. 데이터 주권이 필수적인 서비스의 경우 Gemini Nano와 같은 Proprietary 모델 대신 WebLLM 기반 Open-source 모델 채택