피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Shazam은 대체 어떻게 작동할까?
주파수 피크 기반 Audio Fingerprinting을 통한 고속 곡 식별 설계
AI 요약
Context
방대한 음악 데이터베이스에서 짧은 녹음본만으로 원곡을 신속하게 찾아야 하는 검색 효율성 문제 직면. 기존의 전체 파형 비교 방식은 연산 비용과 저장 공간의 한계로 인해 실시간 서비스 적용에 어려움 존재.
Technical Solution
- 데이터 최적화를 위해 주파수 피크(Frequency Peak) 정보만 추출하고 나머지 데이터를 제거하는 데이터 다이어트 전략 채택
- 시간-주파수 좌표쌍을 활용한 Audio Fingerprinting 생성으로 검색 대상 데이터 크기 최소화
- 조회 속도 향상을 위해 정밀한 파형 매칭 대신 특징점 간의 상대적 거리와 타이밍 정보를 대조하는 인덱싱 구조 설계
- 시간 지연 및 반복 행동 분석을 위해 Dynamic Time Warping(DTW) 알고리즘을 적용하여 입력 신호와 원본의 정렬 최적화
- 단순 녹음본 일치를 넘어 커버 곡 인식을 위해 연산량이 높은 AI 모델 및 딥러닝 기반의 분석 레이어 추가 도입
실천 포인트
1. 대규모 데이터 검색 시 원본 전체가 아닌 고유한 특징점(Fingerprint) 추출 가능 여부 검토
2. 데이터의 시간적 변형이나 지연이 발생하는 시계열 데이터 분석 시 DTW 알고리즘 적용 고려
3. 성능과 정확도의 Trade-off를 분석하여 단순 매칭 로직과 고비용 AI 모델의 계층적 구조 설계