피드로 돌아가기
Find Remove duplicated files in Google Drive
Dev.toDev.to
Infrastructure

Google Drive API 기반 중복 파일 탐색 및 제거 전략 분석

Find Remove duplicated files in Google Drive

Phuong Tran (IT)2026년 5월 25일5beginner

Context

클라우드 스토리지 내 중복 데이터 축적으로 인한 저장 공간 낭비 및 관리 효율성 저하 발생. 단순 파일명 매칭의 부정확성과 서드파티 소프트웨어 설치에 따른 보안 리스크라는 제약 사항 존재.

Technical Solution

  • Google Apps Script를 통한 서버리스(Serverless) 환경 기반의 파일명 매칭 로직 구현
  • Hash Map 구조를 활용하여 파일명별 객체 그룹화를 통한 중복 데이터 식별 및 Trash API 연동 처리
  • Rclone 도구의 MD5 Hash 기반 Content-based Deduplication 방식을 통한 데이터 무결성 검증 및 중복 제거
  • Google Workspace Marketplace API 기반의 클라우드 네이티브 분석 도구 활용으로 로컬 리소스 소모 제거
  • 최신성(Newest) 및 생성일(Oldest) 기준의 데이터 보존 정책(Retention Policy) 설정을 통한 선택적 삭제 프로세스 적용

- 파일명 기반 매칭은 속도가 빠르나 데이터 무결성 보장이 어려우므로 MD5 등 Hash 기반 검증 검토 - 로컬 설치형 도구보다 Cloud-native 스크립트를 통한 API 직접 제어로 보안 및 배포 효율성 향상 - 자동 삭제 전 Interactive 모드 또는 Trash 이동 방식을 통한 데이터 복구 가능성 확보

원문 읽기