피드로 돌아가기
I Spent 6 Months Trying to See Time in Videos. Here's What Finally Worked.
Dev.toDev.to
AI/ML

SlowFast Network 도입을 통한 비디오 시간 예측 오차 30s에서 1-2s로 단축

I Spent 6 Months Trying to See Time in Videos. Here's What Finally Worked.

Sourabh Joshi2026년 4월 26일4intermediate

Context

3D CNN과 LSTM 기반의 순차적 특징 추출 구조로 비디오 시간 예측 시도. 과적합 및 가변 프레임 레이트 처리 불가로 인한 낮은 예측 정확도라는 한계 직면.

Technical Solution

  • SlowFast Network 도입을 통한 다중 스케일 특징 추출 및 융합 구조 설계
  • 저해상도/저프레임의 Slow pathway를 통한 정적인 문맥 정보 확보
  • 고해상도/고프레임의 Fast pathway를 통한 동적인 움직임 정보 포착
  • 시간 예측 문제를 Regression에서 Classification으로 전환하여 모델의 예측 안정성 확보
  • 시간의 연속적 흐름이 아닌 이산적 이벤트(Discrete Events) 단위의 데이터 표현 방식 채택

1. 시계열 데이터 처리 시 단순 Regression 외에 Classification으로의 문제 정의 전환 검토

2. 고정된 단일 샘플링 레이트 대신 다중 스케일(Multi-scale) 분석 경로 적용 여부 확인

3. 모델 아키텍처 변경 전 데이터의 물리적 특성이 모델의 추론 방식과 일치하는지 검증

원문 읽기