피드로 돌아가기
Patch Time Series Transformer in Hugging Face
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face에서 Patch Time Series Transformer(PatchTST) 모델을 통해 시계열 데이터를 패치로 분할 처리해 Transformer 기반 예측 성능 제공

Patch Time Series Transformer in Hugging Face

2024년 2월 1일12intermediate

Context

기존 시계열 예측 모델들은 전체 시계열을 단일 토큰으로 처리하면서 계산 복잡도가 높고 메모리 사용량이 많았다. 또한 한 도메인에서 학습한 모델을 다른 도메인에 적용할 때 별도의 사전학습이나 미세조정이 필요했다.

Technical Solution

  • 시계열을 패치 단위로 분할: 길이 L인 시계열을 정해진 patch_length 크기로 나누어 시퀀스 길이 감소
  • Transformer 아키텍처 적용: 패치된 벡터들을 Transformer의 입력 토큰으로 변환해 어텐션 맵 계산
  • 채널 독립성 설계: 각 채널이 동일한 임베딩과 Transformer 가중치를 공유하는 글로벌 단변량 모델
  • 감독 학습 모드: 패치된 벡터 세트를 사용해 전체 예측 길이 T를 직접 출력
  • 자기지도학습 모드: 마스크된 패치를 예측하는 사전학습 방식 지원
  • 전이학습 파이프라인: 사전학습된 모델에서 선형 프로빙(freeze 후 헤드만 학습)과 완전 미세조정 옵션 제공

Impact

ETTh1 데이터셋에서 완전 미세조정 시 검증 손실이 Epoch 1: 0.709915에서 Epoch 3: 0.741892로 변화, 최종 테스트 손실 0.354232 달성

Key Takeaway

시계열 데이터를 패치로 분할하는 설계는 어텐션 계산량을 이차식으로 감소시키면서 동시에 더 긴 과거 이력에 접근할 수 있는 유연성을 제공한다. 채널 독립성과 모듈화된 구조를 통해 사전학습과 직접 예측 모두에 대응 가능한 확장성 있는 아키텍처를 구현했다.


시계열 예측 문제를 다루는 엔지니어들은 PatchTST의 패치 기반 분할 방식을 적용하면 기존 전체 시퀀스 처리 대비 계산 및 메모리 오버헤드를 크게 줄일 수 있다. Hugging Face Transformers 라이브러리를 통해 사전학습된 모델을 불러온 후 선형 프로빙(num_input_channels, dropout, head_dropout 파라미터 조정)으로 목표 도메인에 빠르게 적응시킬 수 있으며, 필요시 전체 파라미터를 미세조정해 도메인별 성능을 최적화할 수 있다.

원문 읽기