피드로 돌아가기
J'ai construit un assistant documentaire pour PME en un week-end — à coût zéro
Dev.toDev.to
AI/ML

운영비 0€의 RAG 시스템 구축: Transformers.js와 Groq 기반 설계

J'ai construit un assistant documentaire pour PME en un week-end — à coût zéro

Landry LHOMME2026년 6월 22일8intermediate

Context

중소기업 내 파편화된 문서 정보로 인한 HR 부서의 반복적 질의 응답 병목 현상 발생. 기존의 단순 검색으로는 정확한 출처 확인이 어렵고 할루시네이션으로 인한 법적 리스크가 존재하는 상황을 해결하고자 함.

Technical Solution

  • 900자 Chunk 크기와 150자 Overlap 설정을 통한 문맥 단절 방지 및 데이터 인덱싱 최적화
  • pgvector 기반의 Cosine Similarity 검색을 통해 768차원 벡터 공간 내 상위 3개 관련 청크 추출
  • Transformers.js를 브라우저단에 배치하여 클라이언트 사이드 Embedding 생성으로 서버 비용 및 CORS 문제 해결
  • 엄격한 Anti-hallucination 프롬프트 설계를 통해 제공된 컨텍스트 외 답변을 차단하고 출처 명시 강제
  • Groq의 무료 티어를 활용한 고속 추론 파이프라인 구축으로 응답 지연 시간 최소화
  • 파일명과 페이지 번호를 메타데이터로 유지하여 검색 결과에서 즉각적인 출처 검증이 가능한 구조 설계

- PDF/Word 텍스트 추출 시 문맥 유지를 위해 Chunk 간 Overlap 구간 설정 검토 - LLM의 임의 답변 방지를 위해 '정보 부재 시 모른다고 답변'하는 제약 조건 프롬프트 적용 - API 비용 절감을 위해 Transformers.js 등 클라이언트 사이드 Embedding 모델 도입 고려 - 검색 결과의 신뢰성 확보를 위해 Vector 검색 결과에 원본 문서의 메타데이터(페이지, 파일명)를 반드시 결합

원문 읽기