피드로 돌아가기
Dev.toAI/ML
원문 읽기
Tavily와 GPT-5.4 nano 기반의 Semantic Search 파이프라인 구축을 통한 교육 콘텐츠 저장소 전환
How I Rebuilt Educando.app's Core: Tavily + GPT-5.4 nano Search Pipeline
AI 요약
Context
기존 Gemini 기반 실시간 생성 구조에서 API Key 유출로 인한 보안 사고 및 낮은 사용자 경험 확인. 단순 LLM 프롬프트 생성보다 검증된 콘텐츠를 빠르게 찾는 검색 중심 아키텍처로의 전환 필요성 대두.
Technical Solution
- Tavily Search를 통한 정제된 외부 데이터 수집 및 Semantic Search 레이어 구축
- GPT-5.4 nano 모델을 활용한 BNCC 교육과정 정렬 기준의 결과물 Scoring 및 Ranking 시스템 설계
- MD5 Query Hash 기반의 Supabase Cache 레이어 도입을 통한 중복 요청 제거 및 Latency 최소화
- BNCC 코드를 Array 필드로 구조화하여 Semantic Matching의 한계를 보완하는 필터링 체계 구현
- Qwen-image-2-pro 파이프라인을 통한 이미지 메타데이터 추출 및 검색 인덱싱 최적화
- Cloudflare Turnstile Edge 보안 적용을 통한 API Abuse 방지 및 서버 부하 감소
실천 포인트
- LLM 선정 시 생성 작업이 아닌 분류/랭킹 작업에는 저비용·고속 모델(nano 등)을 우선 검토 - 검색 쿼리의 정규화 및 해싱을 통한 캐싱 레이어 설계로 API 비용 절감 및 응답 속도 개선 - 클라이언트 사이드 핑거프린팅 대신 CDN 레벨의 보안 솔루션을 통한 단순하고 견고한 Abuse Prevention 구현 - 비정형 텍스트 데이터의 검색 품질 향상을 위해 도메인 특화 식별자(예: BNCC 코드)를 구조화된 스키마로 관리