연구팀이 LLM 기반 평가 메트릭(LAVE)을 도입해 Out-of-Distribution VQA 환경에서 의미론적으로 정확한 답변을 기존 문자열 매칭 메트릭보다 정확하게 평가

LAVE: Zero-shot VQA Evaluation on Docmatix with LLMs - Do We Still Need Fine-Tuning?

2024년 7월 25일12분intermediate

AI 요약

Context

Florence-2를 Docmatix에서 파인튜닝했을 때 DocVQA 벤치마크에서 낮은 점수를 받는 문제가 발생했다. 이는 생성된 답변이 의미론적으로는 정확하지만 ANLS, CIDER, BLEU 같은 문자열 기반 메트릭에서 형식, 구체성, 해석의 차이로 인해 낮은 점수를 받기 때문이다. VQA 평가가 Out-of-Distribution 설정으로 전환되면서 기존 메트릭들이 합성 데이터셋과 인간 주석 데이터셋 간의 스타일 차이를 반영하지 못하게 되었다.

Technical Solution

LAVE(LLM-Assisted VQA Evaluation) 메트릭 도입: VQA 평가를 답변 등급 매기기 작업으로 재구성하고 LLM 인컨텍스트 학습으로 수행
Llama-2-Chat-7b를 평가자로 활용: 1~3 점수 척도(1=부정확, 2=모호/불완전, 3=정확)를 사용해 답변 평가
프롬프트 구조 개선: 작업 설명 + 입출력 시연(demonstration) + 테스트 예시 포함, "Give the rationale before rating" 지시문 추가로 근거 제시
단일 평가 원칙 강제: "Provide only one rating" 지시문으로 문장 단위 분석 회피
MPLUGDocOwl1.5 베이스라인 모델 사용: DocVQA 테스트 부분집합에서 84% ANLS 달성

Impact

아티클에 명시된 정량적 수치가 없다. LAVE 메트릭의 성능 수치나 기존 메트릭 대비 개선도는 제시되지 않았다.

Key Takeaway

합성 데이터셋과 인간 주석 데이터셋 간의 Out-of-Distribution 평가에서는 문자열 매칭 기반 메트릭이 의미론적 정확성을 반영하지 못한다. LLM을 평가자로 활용하는 구조화된 평가 프롬프트는 인간 판단과 더 잘 정렬된 메트릭 대안을 제공할 수 있다.

실천 포인트

Vision-Language 모델을 합성 데이터셋에서 파인튜닝하거나 Out-of-Distribution 벤치마크에 평가할 때, LAVE 같은 LLM 기반 평가 메트릭을 적용하면 생성 답변의 형식 차이로 인한 거짓 부정(false negative)을 줄이고 인간 판단과 일치도 높은 평가가 가능하다.

태그

#Out-of-Distribution #LLM Evaluation #VQA #DocVQA #LAVE

원문 읽기