피드로 돌아가기
Querying Germany's Company Register via API: Clean JSON and the new eGbR
Dev.toDev.to
Backend

eGbR 대응 및 1k건당 $4 비용으로 구현한 독일 기업 데이터 JSON 추출 파이프라인

Querying Germany's Company Register via API: Clean JSON and the new eGbR

Patrick Lierse2026년 6월 14일1intermediate

Context

독일 기업 데이터의 지역 법원별 분산 저장 및 HTML 기반의 비정형 인터페이스로 인한 데이터 수집의 어려움. Session-bound 폼과 엄격한 Rate Limit으로 인해 머신 가독성이 낮은 레거시 구조의 한계 발생.

Technical Solution

  • 2024년 도입된 eGbR(eingetragene Gesellschaft bürgerlichen Rechts) 및 GsR 레지스트리를 지원하는 데이터 스키마 확장
  • Portal의 Rate Limit을 준수하는 트래픽 제어 로직을 통한 안정적인 데이터 추출 체계 구축
  • 비정형 HTML 데이터를 정형 JSON으로 변환하는 Managed Extractor 구조 설계
  • GDPR 준수를 위해 개인정보를 제외하고 §9 HGB 법적 공개 항목(등록번호, 법원, 법적 형태, 상태)만 필터링하는 데이터 파이프라인 구성
  • n8n 및 Python requests와 즉시 연동 가능한 RESTful API 인터페이스 제공

Impact

  • 1,000개 결과당 약 $4의 비용으로 정형 데이터 확보 가능

Key Takeaway

비정형 데이터 소스의 잦은 레이아웃 변경과 법적 제약 사항을 추상화한 Managed Layer 도입을 통해 인프라 유지보수 비용 절감 및 데이터 정합성 확보 가능


1. 데이터 소스의 법적 업데이트(예: eGbR 도입)에 따른 스키마 변경 사항 주기적 모니터링

2. GDPR 준수를 위한 파이프라인 단계별 데이터 필터링 전략 수립

3. 자체 스크래퍼 유지보수 비용과 Managed API 도입 비용의 TCO 비교 분석

원문 읽기