Capital Fund Management이 Llama 3.1 기반 LLM 보조 라벨링과 GLiNER/SpanMarker 미세조정으로 금융 NER 정확도 6.4% 향상 및 추론 비용 80배 절감

Investing in Performance: Fine-tune small models with LLM insights - a CFM case study

2024년 12월 3일10분intermediate

AI 요약

Context

금융 뉴스 기사에서 회사명 추출 시 데이터 제공자의 태그가 불완전하여 검증이 필요했다. 대규모 LLM(Llama 3.1-70b, 시간당 8달러)은 95% F1-score의 높은 정확도를 제공하지만 운영 비용이 높아 실시간 거래 시스템에 부적합했다.

Technical Solution

Llama 3.1-70b를 Hugging Face Inference Endpoints로 배포하여 금융 뉴스 헤드라인에 대한 자동 라벨 생성: 1,000개 샘플 기준 2분 내 완료(F1 0.895)
Argilla 오픈소스 데이터 주석 플랫폼을 통해 Llama 생성 라벨을 수동으로 검수 및 정제: 인간 주석과 자동 생성 라벨의 품질 차이 관리
GLiNER 모델을 LLM 보조 라벨링 데이터셋으로 미세조정: Zero-shot 87.0% F1에서 93.4% F1로 향상, 추론 비용 시간당 0.50달러(GPU) 또는 0.10달러(CPU)
SpanMarker 모델을 동일 데이터셋으로 미세조정: Zero-shot 47.0% F1에서 90.1% F1로 향상, 동일 추론 비용
Benzinga 뉴스 소스에 한정한 약 900k 샘플의 Financial News and Stock Price Integration Dataset(FNSPID) 기반 평가

Impact

GLiNER 모델 미세조정으로 정확도 6.4% 향상(87.0% → 93.4% F1-score)
SpanMarker 모델 미세조정으로 정확도 43.1% 향상(47.0% → 90.1% F1-score)
Llama 3.1-70b 대비 추론 비용 80배 감소(시간당 8달러 → 0.10~0.50달러)
수동 주석 3시간 소요(1,000 샘플) 대비 Llama 기반 자동 라벨링 2분 소요(0.895 vs 0.915 F1-score)

Key Takeaway

금융 데이터 같은 고정확도 요구 환경에서는 대규모 LLM을 라벨링 도구로만 활용하고 소형 모델(GLiNER, SpanMarker)을 미세조정하는 방식이 정확도를 유지하면서 운영 비용을 획기적으로 절감한다. 데이터셋 규모가 증가할수록 인간 주석 데이터가 더 나은 성능을 제공하지만, LLM 보조 라벨링은 자원 제약 상황에서 비용-품질 트레이드오프를 합리적으로 해결하는 실용적 선택지이다.

실천 포인트

금융 거래 시스템이나 정보 추출 파이프라인을 구축할 때는 Llama 같은 오픈소스 LLM을 먼저 Hugging Face Inference Endpoints로 배포해 데이터 라벨링을 자동화한 후, Argilla로 검수한 데이터로 GLiNER/SpanMarker 같은 경량 모델을 미세조정하면 대규모 LLM 직접 운영 대비 추론 비용을 80배 절감하면서도 정확도 손실을 최소화할 수 있다.

태그

#Fine-Tuning #Data Labeling #Named Entity Recognition #NER #LLM

원문 읽기