데이터 감사와 모델 교체로 FinanceBench 정확도 10%에서 57%로 개선

From 10% to 57% Accuracy on FinanceBench: What Actually Moved the Needle

João Paulo Traguetta Rufino2026년 6월 4일5분intermediate

AI 요약

Context

SEC 공시 문서 기반 RAG 시스템 구축 과정에서 발생한 낮은 초기 정확도(10%) 해결을 목표로 함. 초기 설계의 단순 RAG 구조는 금융 데이터 특유의 유사한 문구와 PDF 추출 오류로 인한 낮은 Retrieval 품질 및 Generation 추론 능력 부족이라는 한계를 가짐.

Technical Solution

Corpus Audit를 통한 누락 및 손상 문서 복구로 Retrieval Recall의 비약적 향상 도모
LangGraph 기반의 명시적 CRAG Pipeline(분석→검색→재정렬→등급 부여→생성) 설계를 통해 에이전트 루프의 불확실성 제거 및 비용 최적화
Chunk별 Metadata Prefix(회사명, 문서종류, 연도) 삽입으로 유사 문구 간의 의미적 구분을 명확히 하여 Cross-company 검색 오류 방지
BAAI/bge-reranker-base 기반의 Reranking 단계 추가를 통한 컨텍스트 정밀도 강화
Generation 모델을 GPT-4o-mini에서 GPT-4o로 상향하여 금융 수치 데이터에 대한 추론 및 추출 능력 확보
수치 일치 여부를 검증하는 엄격한 Numerical Comparison 규칙 기반의 LLM-as-judge v2 구축으로 평가 지표의 신뢰도 확보

실천 포인트

- 검색 알고리즘 최적화 전 Corpus Audit를 통해 데이터 누락 및 추출 오류 여부 확인 - LLM-as-judge 도입 시 유창함이 아닌 수치적 정확도를 측정하는 엄격한 Calibration 단계 필수 적용 - 도메인 특화 문서의 경우 Chunk에 Metadata Prefix를 결합하여 Embedding의 변별력 강화 - Retrieval 성능 향상이 전체 Accuracy로 이어지지 않을 경우 Generation 모델의 추론 능력 검토

태그

#FinanceBench #Contextual Retrieval #RAG #LLM-as-judge #CRAG

원문 읽기