Autoformer가 Decomposition Layer와 Autocorrelation Attention 메커니즘을 도입해 DLinear와의 벤치마크에서 Traffic, Exchange-Rate, Electricity 데이터셋 모두에서 우수한 MASE 점수 달성

Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)

2023년 6월 16일10분intermediate

AI 요약

Context

시계열 예측 분야에서 Transformer 기반 모델의 효과성에 대한 논쟁이 있었다. AAAI 2023 논문에서 단순 선형 모델인 DLinear가 Transformer 모델보다 우수하다고 주장했으나, 동일한 크기의 Transformer 모델과의 공정한 비교가 부족했다.

Technical Solution

Decomposition Layer 도입: 시계열을 Trend-Cycle, Seasonal, Random Fluctuation 세 가지 성분으로 분해하는 내부 연산 블록을 Encoder와 Decoder에 삽입해 계절성과 추세 성분을 점진적으로 추출
Autocorrelation Attention 메커니즘 도입: 기존 Self-Attention을 Period-Based Dependencies를 활용하는 Autocorrelation 메커니즘으로 대체해 시계열의 주기적 패턴 캡처
Univariate 및 Multivariate 모델 비교: 동일 크기의 Univariate Autoformer와 Multivariate 모델을 DLinear와 벤치마크해 공정한 성능 평가 수행
Autoformer 아키텍처: NeurIPS 2021 Autoformer 논문에서 제시된 Decomposition Layer와 Autocorrelation Attention을 결합한 구조 적용
DLinear 분석: Autoformer의 Decomposition Layer를 사용하는 단순 Feedforward Network로 성능 비교

Impact

Autoformer (Univariate)가 DLinear를 세 데이터셋 모두에서 상회: Traffic (MASE 0.910 vs 0.965), Exchange-Rate (MASE 1.087 vs 1.690), Electricity (MASE 0.751 vs 0.831)

Key Takeaway

단순 선형 모델은 Univariate 설정에서 공변량을 포함할 수 있는 능력이 부족하며, 동일 크기의 Transformer 기반 모델과 공정한 비교 환경에서는 Transformer가 시계열 예측에 효과적임. 시계열 예측 분야의 발전을 위해서는 ImageNet 규모의 대규모 공개 데이터셋 구축이 필수적.

실천 포인트

시계열 예측 모델을 개발할 때 기존 DLinear 같은 단순 선형 모델과 Transformer를 비교한다면, 동일한 모델 크기 조건에서 Univariate Autoformer를 기준으로 평가하되, 공변량(Covariate)이 필요한 경우 Transformer 기반 모델의 우수성을 고려해야 한다. 특히 소규모 데이터셋에서는 Univariate 모델이 성능이 우수하므로, Multivariate 모델 도입 전에 대규모 학습 데이터 확보 여부를 검토해야 한다.

태그

#Time Series Forecasting #Transformers #Autoformer #Decomposition #Attention Mechanism

원문 읽기