Hugging Face BlogBigCode와 BigScience가 MinHash LSH, SimHash, Suffix Array 등 3가지 알고리즘을 조합해 대규모 데이터셋에서 중복 제거로 훈련 데이터 크기를 17M(65.86GB)으로 압축Large-scale Near-deduplication Behind BigCodeAI/MLintermediate48 분 소요2023년 5월 16일