피드로 돌아가기
Building an NLP Pipeline to Classify 225,000 Central Bank Sentences
Dev.toDev.to
AI/ML

22.5만 개 중앙은행 문장 분류를 위한 맞춤형 NLP 파이프라인 구축

Building an NLP Pipeline to Classify 225,000 Central Bank Sentences

ivan-digital2026년 4월 9일4intermediate

Context

중앙은행의 방대한 전문 용어 문서 수동 추적의 한계. 일반적인 Sentiment Analysis 모델의 도메인 특수성 인식 부족으로 인한 낮은 정확도. 기관별로 상이한 문서 형식과 배포 방식에 따른 데이터 수집의 복잡성.

Technical Solution

  • aiohttp와 Playwright 기반의 비동기 커스텀 크롤러를 설계하여 HTML, PDF, JS 렌더링 페이지 등 다양한 소스 대응
  • 중앙은행 특유의 약어(Fed, Q4 등)와 리스트 구조를 보존하기 위해 규칙 기반의 Sentence Splitting 전략 적용
  • 도메인 특화 프롬프트 설계를 통해 단순 시장 지표와 실제 정책 결정 문장을 구분하는 LLM 분류 체계 구축
  • Temperature 0.0과 0.1로 각 문장을 두 번 분류하여 결과가 불일치하는 사례를 추출하는 Self-Validation 프로세스 도입
  • 기관별 소통 방식의 차이를 반영한 맞춤형 프롬프트 룰셋 적용으로 PBOC, Fed 등 각 은행별 분류 정확도 최적화
  • Airflow를 활용한 일일 배치 파이프라인 구축 및 SQLite 기반의 데이터 저장 구조 설계

Impact

  • 26개 중앙은행 대상 225,000개 이상의 문장 분류 수행
  • 12개 Sentiment 클래스와 9개 Topic 카테고리로 세분화된 데이터셋 구축

Key Takeaway

범용 모델의 한계를 극복하기 위해 도메인 특화 규칙과 다중 추론 기반의 검증 루프를 결합한 데이터 파이프라인 설계의 중요성.


도메인 특수성이 강한 텍스트 분류 시, 일반 모델에 의존하지 말고 온도 설정을 달리한 교차 검증과 예외 사례(Boilerplate) 명시적 제외 규칙을 적용할 것

원문 읽기