Entalpic과 Hugging Face가 Materials Project, Alexandria, OQMD 3개 데이터셋을 통합·표준화해 6.7M개 엔트리의 LeMat-Bulk 데이터셋 구축

LeMaterial: an open source initiative to accelerate materials discovery and research

2024년 12월 10일8분intermediate

AI 요약

Context

재료 과학 연구에서 Materials Project, Alexandria, OQMD 등 주요 데이터셋들이 형식, 파라미터, 범위가 일관되지 않아 데이터 통합이 어려웠다. 각 데이터셋마다 불일치한 필드 정의, 비호환성 계산, 특정 재료 편향(예: Materials Project의 리튬·산화물 중심), 데이터셋 간 중복 재료를 식별할 명확한 식별자 부재 문제가 있었다.

Technical Solution

3개 데이터셋 통합: Materials Project, Alexandria, OQMD에서 데이터 수집 및 병합, PBE·PBESol·SCAN 등 다양한 DFT 펑셔널 포함
데이터 정제: 설정된 표준에 맞지 않는 데이터포인트 식별 및 제거 (비호환성 계산 제거)
필드 표준화: Optimade 표준을 사용해 데이터베이스 간 필드를 균일한 형식으로 변환
중복 제거: 벤치마크된 해싱 함수로 각 재료에 고유 식별자(Material fingerprint) 부여
데이터 검증: 필드 호환성 및 포매팅 확인, v.1.1에서 53k개 추가 데이터포인트의 전하 데이터 계산 및 통일된 에너지 보정 스킴 적용
접근성 및 시각화: Crystal Toolkit, Pymatgen, Dash 컴포넌트 기반 Materials Explorer 제공, 상평면도(phase diagram) 시각화 도구 제공
모델 학습: v.1.1에서 Equiformerv2와 FAENet 모델을 통합 데이터로 훈련

Impact

최종 통합 데이터셋 6.7M개 엔트리, 7개 재료 물성 포함.

Key Takeaway

복수의 독립적 데이터 소스를 통합할 때 필드 표준화, 명확한 식별자 설계, 자동화된 검증 프로세스를 함께 구현해야만 업스트림 데이터셋의 편향을 제거하고 기계학습 모델 정확도를 높일 수 있다.

실천 포인트

재료 과학 분야의 ML 엔지니어가 여러 학술 데이터베이스를 활용할 때, 원본 데이터셋 대신 LeMat-Bulk의 표준화된 7개 물성과 Material fingerprint 식별자를 사용하면 데이터 정제 비용을 절감하고 모델 학습 중 중복·불일치 문제를 사전에 방지할 수 있다.

태그

#Open Source #Materials Science #Data-Standardization #Data Integration #machine learning

원문 읽기