Dropbox가 DSPy 프레임워크를 도입해 LLM 기반 관련성 판정 모델을 o3에서 gpt-oss-120b로 마이그레이션하면서 수동 프롬프트 튜닝 대신 체계적 최적화 루프로 전환

How we optimized Dash's relevance judge with DSPy

Eric Wang,Dmitriy Meyerzon2026년 3월 17일10분intermediate

AI 요약

Context

관련성 판정 모델이 Dash의 순위 결정, 훈련 데이터 생성, 오프라인 평가 등 여러 파이프라인에서 사용되면서 프롬프트 변경 시 회귀 위험이 증가했다. 최고 성능 모델(OpenAI o3)은 품질은 높지만 대규모 쿼리-문서 쌍 점수 매김에 비용이 지속 불가능했다. 저비용 모델(gpt-oss-120b)로 마이그레이션 시 수동 프롬프트 재작성으로 몇 주의 반복 작업이 필요했다.

Technical Solution

평가 메트릭 정의: 정규화 평균 제곱 오차(NMSE)로 모델 점수와 인간 주석자 점수의 편차를 0~100 범위로 계산하고, JSON 구조 실패율을 구조적 신뢰성 지표로 포함
DSPy 프레임워크 도입: 고정된 작업(1~5 점수 할당)과 고정된 데이터셋(인간 주석 예제)을 바탕으로 새 모델에 대한 체계적 프롬프트 적응 수행
모델 스왑 워크플로우 구축: 모델 변경 시 수동 프롬프트 재작성 대신 정의된 메트릭을 기준으로 자동 최적화 실행
위험 수준별 최적화 전략: 신규 저비용 모델 탐색 시 전체 엔드투엔드 최적화 실행, o3 같은 프로덕션 시스템에선 제약적 증분 업데이트 적용
반복 가능한 최적화 루프: 작업 정의 → 인간 레이블 기준 측정 → 최적화 → 신뢰도 있게 변경 배포의 사이클 확립

Key Takeaway

LLM 기반 판정 시스템에서 프롬프트 최적화를 일회성 수동 작업이 아닌 체계적 루프로 구성하면, 모델 변경 시마다 회귀 위험을 줄이면서 재현 가능한 개선을 달성할 수 있다.

실천 포인트

LLM을 판정자로 사용하는 검색·순위 결정·데이터 생성 시스템에서 인간 주석 데이터를 기준 메트릭(NMSE 등)으로 정의한 후 DSPy를 적용하면, 모델 크기 변경이나 API 마이그레이션 시 프롬프트 호환성 문제를 자동화된 최적화로 해결할 수 있으며 수동 튜닝 시간을 단축할 수 있다.

태그

#Production AI #Relevance Ranking #DSPy #Prompt Optimization #LLM

원문 읽기