From zero evals to a working multimodal evaluation in 30 minutes using LangWatch Skills
InField Agent 개발팀이 LangWatch Skills를 도입해 멀티모달 에이전트 평가 파이프라인을 30분 내에 구축하고 위성 이미지 분석 신뢰성 검증
AI 요약
Context
에이전트를 배포한 후 위성 이미지 분석이 부정확한 NDVI 추정값을 반환하거나 지식 기반 도구 호출이 중단되는 등 프로덕션 문제가 발생했으나, 개발 단계에서 자동화된 평가 없이 수동 데모에만 의존했다. 텍스트 기반 검색, 구조화된 데이터 쿼리, 멀티모달 비전 분석이 모두 동일 프롬프트 뒤에 숨어 있어 기존 단위 테스트로는 전체 실패 지점의 약 10% 정도만 커버 가능했다.
Technical Solution
- LangWatch Skills 설치로 평가 및 시나리오 관련 Claude Code 명령어 자동 스캐폴딩:
npx skills add langwatch/skills/evaluations및npx skills add langwatch/skills/scenarios실행으로.claude/skills/디렉토리에 스킬 파일 생성 - LangWatch 트레이싱 구현:
langwatch.setup()및@langwatch.trace()데코레이터로 모든 LLM 호출, 도구 호출, 입출력 쌍을 대시보드에서 가시화 - Jupyter 노트북 기반 멀티모달 실험: 위성 이미지를 마크다운으로 인라인 임베드하고 3개 이미지 × 3개 평가자 조합으로 분당 1회 미만의 평가 실행
- 세 가지 에이전트 기능별 평가 데이터셋 구성: 지식 기반 도구(온도 보정 절차), 스테이션 상태(배터리 전압 조회), 위성 이미지(NDVI 추정값 범위 검증) 각각에 대한 예상 출력 정의
- 개발, CI/CD, 프로덕션 단계에서 동일한 평가자 적용: answer-relevancy, tool-usage-check 등 평가 로직을 노트북 실험에서 정의하면 배포 전 CI와 프로덕션 추적에서 자동 적용
Impact
설정 시간 30분 이내, 노트북 평가 실행 1분 미만, Lambda 배포 비용은 저용량 기준으로 미미함. LangWatch 무료 티어에서 실험용 트레이싱 무제한 지원.
Key Takeaway
멀티모달 에이전트의 경우 정상처럼 보이는 잘못된 응답(예: 위성 도구가 부정확한 값 반환)을 자동으로 탐지하려면 평가가 필수이며, 도구 사용 여부 검증이 답변 품질 검증만큼 중요하다. 같은 평가자를 개발부터 프로덕션까지 모든 단계에 적용하면 품질 기준의 일관성을 보장할 수 있다.
실천 포인트
Strands Agents SDK나 유사한 LLM 에이전트 프레임워크를 사용하는 팀에서 멀티모달 도구(비전 모델, 데이터베이스 조회, 외부 API)를 포함할 때, LangWatch 같은 플랫폼의 평가 스킬을 초기 30분 내에 도입하고 Jupyter 노트북에서 이미지/구조화 데이터를 마크다운으로 임베드한 데이터셋을 정의하면, 배포 전 도구 호출 패턴 오류와 답변 정확성을 동시에 검증할 수 있다.