Hugging Face가 대화형 Data Measurements Tool을 오픈소스로 공개해 코딩 없이 데이터셋의 어휘 크기, 레이블 분포, 단어 쌍의 정규화된 상호 정보(nPMI)를 측정할 수 있도록 함

Introducing the Data Measurements Tool: an Interactive Tool for Looking at Datasets

2021년 11월 29일9분beginner

AI 요약

Context

ML 데이터셋 개발 시 정적 문서화만으로는 실제 데이터셋의 내용을 파악하기 어렵다. 데이터셋을 분석하고 측정하려면 복잡한 코딩 기술이 필요해 다양한 분야의 전문가가 참여하기 어렵다. 기존의 "빅 데이터" 관행에서는 데이터 출처, 분포, 편향에 대한 구체적 측정이 부족했다.

Technical Solution

오픈소스 Python 라이브러리와 노코드 인터페이스 제공: Streamlit, Dataset Hub, Spaces Hub와 통합하여 웹 기반 대화형 분석 제공
데이터셋 기본 정보 측정: 누락된 항목 감지, 데이터셋 구성에 대한 정합성 검증 기능
서술 통계 계산: 어휘 크기, 단어 분포(개방형·폐쇄형 단어), 레이블 분포, 클래스 불균형 측정, 인스턴스 길이의 평균·중앙값·범위·분포 계산
분포 통계 분석: Zipf의 법칙 준수도 측정, 단어 쌍 간 정규화된 상호 정보(nPMI) 계산으로 고정관념 식별
텍스트 유사도 기반 클러스터링: Sentence-Transformer 모델과 최대 내적 단일-연쇄 기준으로 계층적 클러스터링 수행, 호버/검색/선택을 통한 클러스터 탐색 제공

Key Takeaway

데이터 중심의 ML 개발에서 코딩 장벽을 제거하고 대화형 측정 도구를 제공하면 데이터 큐레이션과 편향 감지에 다양한 분야의 전문가가 참여할 수 있다.

실천 포인트

NLP 데이터셋을 다루는 팀은 Data Measurements Tool의 nPMI 기반 분석을 활용해 레이블 분포 불균형과 성별·성적지향 관련 고정관념을 식별한 후, 클러스터링 기능으로 유사한 텍스트를 그룹화하여 제거할 중복 데이터와 이상치를 체계적으로 발견할 수 있다.

태그

#Data Measurement #Streamlit #Dataset Analysis #NLP #Hugging Face

원문 읽기