Dropbox가 소규모 인간 레이블링 데이터로 LLM 기반 평가를 캘리브레이션하여 검색 관련성 라벨을 대규모로 생성하는 하이브리드 접근법 도입

Using LLMs to amplify human labeling and improve Dash search relevance

Eric Wang,Dmitriy Meyerzon,Dmitriy Meyerzon2026년 2월 26일8분intermediate

AI 요약

Context

엔터프라이즈 검색 인덱스에는 수백만 개에서 수십억 개의 문서가 존재하므로, 검색 랭킹 모델의 품질이 최종 LLM 응답 품질을 좌우한다. 기존 인간 레이블링 방식은 높은 비용, 낮은 확장성, 레이블러 간 불일치, 그리고 민감한 고객 데이터 평가의 기술적 어려움으로 인해 충분한 규모의 학습 데이터를 확보하기 어려웠다.

Technical Solution

소규모 인간 레이블 데이터셋 구축: 엔지니어들이 직접 쿼리-문서 쌍에 1~5 척도의 관련성 점수를 할당하여 기준 데이터 생성
LLM 기반 평가 캘리브레이션: 인간 레이블 데이터로 LLM 프롬프트와 평가 기준을 검증하고 정제
대규모 자동 레이블링: 캘리브레이션된 LLM을 사용하여 수백만 개의 추가 쿼리-문서 쌍에 관련성 점수 부여
XGBoost 모델 학습: 인간-LLM 하이브리드 라벨로 훈련된 랭킹 모델이 관련성 신호의 가중치를 반복 조정
지속적 모니터링 및 재캘리브레이션: 인간 검증 기준 데이터에 의해 고정된 기준점을 중심으로 LLM 평가의 드리프트를 탐지하고 모델·프롬프트 변경 시 재조정

Key Takeaway

RAG 기반 AI 시스템에서 인간 판단을 LLM으로 확장하려면, 소규모 고품질 인간 데이터로 LLM을 먼저 캘리브레이션한 뒤 대규모 자동화를 수행해야 하며, 인간 검증 기준점을 지속적으로 유지하여 시스템 진화 과정에서 정확성 저하를 방지할 수 있다.

실천 포인트

엔터프라이즈 검색이나 정보 검색 시스템을 구축하는 팀에서 대규모 관련성 레이블이 필요한 경우, 소규모 인간 레이블링 데이터(수백~수천 쌍)로 명확한 프롬프트와 평가 지침을 통해 LLM을 먼저 검증한 후, 그 LLM을 사용해 수백만 개 규모의 데이터를 자동 레이블링하되, 인간 검증 데이터를 고정된 기준점으로 유지하면서 정기적으로 LLM 출력을 모니터링하여 드리프트를 탐지할 수 있다.

태그

#ML Ranking #Data Labeling #RAG #LLM #Information Retrieval

원문 읽기