Digital Green과 Hugging Face가 LLM-as-a-Judge 평가 시스템을 도입해 농업 챗봇의 신뢰성을 정량화하고 20,000명 이상의 농민으로부터 340,000개 이상의 쿼리 처리

Expert Support case study: Bolstering a RAG app with LLM-as-a-Judge

2024년 10월 28일9분intermediate

AI 요약

Context

농업 정보 제공 챗봇 Farmer.chat은 RAG 파이프라인으로 46,000개 농업 연구 논문에서 검색한 정보를 기반으로 농민에게 조언을 제공하는데, 다중 언어·지역·작물에 걸친 대규모 배포 환경에서 시스템의 답변 정확성과 신뢰성을 객관적으로 평가할 수 있는 방법이 부재했다.

Technical Solution

지식 기반 구축: PDF 문서를 Scio API로 수집하고 지리적 영역별로 자동 분류하며 의미론적으로 그룹화
의미론적 청킹 적용: 문장의 의미적 유사성을 기준으로 small-text embedding과 코사인 유사도를 사용하여 텍스트 청크 생성
VectorDB 변환: QdrantDB에 임베딩 모델을 이용한 벡터 표현으로 저장
RAG 파이프라인 운영: 벡터 데이터베이스에서 사용자 쿼리와 관련된 텍스트 청크를 검색하고 LLM으로 응답 생성
LLM-as-a-Judge 평가 시스템 도입: Gemini-1.5-Flash, Gemini-1.5-Pro, Llama-3-70B를 평가자로 활용하여 신뢰성(faithfulness)과 답변 거부율을 측정
평가 지표 기반 모델 선정: Gemini-1.5-Flash를 최종 선택 (낮은 답변 거부율과 높은 신뢰성의 트레이드오프)

Impact

20,000명 이상의 농민 서비스 제공
340,000개 이상의 쿼리 처리
6개 이상의 언어로 50개 가치사슬 작물 대응
거의 0에 가까운 편향성 및 독성 응답 유지

Key Takeaway

LLM을 평가자로 사용하면 대규모 배포된 AI 시스템의 성능을 객관적이고 데이터 기반으로 측정할 수 있으며, 이를 통해 지식 기반 격차 식별, 최적 모델 선택, 사용자 경험 개선을 동시에 달성할 수 있다.

실천 포인트

RAG 기반 챗봇을 운영하는 팀에서 LLM-as-a-Judge 평가 시스템을 도입하면, 신뢰성(faithfulness)과 답변 거부율을 정량적으로 측정하여 여러 LLM 모델 간 성능 트레이드오프를 객관적으로 비교하고 배포할 모델을 선택할 수 있다.

태그

#Knowledge Base #Farmer.chat #RAG #LLM-as-a-Judge #Evaluation

원문 읽기