Braintrust와 Waxell이 에이전트 개발 및 운영의 서로 다른 단계를 담당하면서 품질 평가와 런타임 거버넌스의 구분 필요성 제시

Waxell vs. Braintrust: When Evaluation Isn't Enough

Logan2026년 3월 24일8분intermediate

AI 요약

Context

AI 에이전트가 실제 운영 환경에서 민감한 데이터나 외부 API에 접근할 때, 개발 단계에서의 높은 품질 평가 점수(8.7/10)만으로는 PII 유출 같은 거버넌스 문제를 방지할 수 없다. 기존 Braintrust는 출력 품질을 측정하고 최적화하는 개발 중심 평가 도구로, 프로덕션 환경의 정책 강제와 런타임 제어가 불가능하다.

Technical Solution

Braintrust는 점수 함수(scorers)로 출력 품질을 평가하고 Loop를 통해 AI 기반 프롬프트 최적화를 수행: 500개의 실제 프로덕션 트랜스크립트를 주간 평가 스위트에서 검사하고 8.5/10 이상 도달 시에만 배포
Waxell은 LangChain, CrewAI, LlamaIndex 등 모든 에이전트 프레임워크에 실행 추적 계층(span, 도구 호출, 토큰 사용량, 타이밍)을 배포
Waxell이 각 도구 호출 및 출력 전에 런타임 정책을 강제: 에이전트가 사용 가능한 도구, 처리 가능한 데이터, 세션당 비용 제한, 차단된 출력 내용을 인프라 계층에서 제어
정책 위반 시 동작을 사후 로깅이 아닌 실행 전 차단: 에이전트 로직과 무관하게 인프라 계층에서 강제되므로 배포 없이 정책 업데이트 가능
Braintrust의 평가 결과가 프로덕션 추적으로 피드백되어 실제 운영 환경에서 평가한 설정 성능 검증 가능

Key Takeaway

"품질이 우수하다"는 것과 "프로덕션 실행에 안전하다"는 것은 서로 다른 질문이므로, 개발 단계에서는 Braintrust로 출력 품질을 최적화하고 프로덕션 단계에서는 Waxell로 런타임 정책 강제와 감사 추적을 확보해야 한다.

실천 포인트

민감한 데이터나 외부 API 접근이 포함된 에이전트를 운영하는 팀은 개발 단계에서 Braintrust의 평가 및 Loop 최적화로 품질을 검증한 후, 프로덕션 배포 시 Waxell으로 도구 접근 제어, 데이터 필터링, 세션 비용 제한, 컴플라이언스 감사 추적을 설정하면 품질과 거버넌스를 동시에 확보할 수 있다.

태그

#Agent #Compliance #Evaluation #LangChain #Governance

원문 읽기