본문 바로가기
TechStudy/TimeSeries

ICLR 2024 학회 (LG 블로그 요약)

ICRL 시계열 논문 리스트: https://iclr.cc/virtual/2024/papers.html?filter=topic&search=Deep+Learning-%3ESequential+Models,+Time+series

 

2024년 5월 International Conference on Learning Representations 시계열 예측 학회 관련 하이라이트 정리

(LG 블로그)

 

 

 


FITS: Modeling Time Series with 10k Parameters

Xu, Zhijian, Ailing Zeng, and Qiang Xu. "FITS: Modeling Time Series with 10k Parameters." The Twelfth International Conference on Learning Representations. 2024.

 

FITS (Frequency Interpolation Time Series Analysis Baseline): 효율적인 시계열 예측 위해 주파수 도메인 활용

~ 주파수 변환 기법 연관

 

시간 도메인에서의 예측(Forecasting/Extrapolation)과 주파수 도메인에서의 보간(Interpolation) 사이의 동치성

-> 1만개 정도의 적은 파라미터만으로 예측 성능 구현.

 

보간을 위한 단일 Complex-valued 선형 레이어로 Harmonics 주파수 기반 저주파 통과 필터를 적용

-> 예측 성능 보존 + 모델 크기 줄임

-> 모델 개발에 주파수 도메인 활용 可


Long-term 시계열 예측 벤치마크 데이터셋 실험 결과: 대부분 벤치마크에서 기존 SOTA(state-of-the-art) 모델 이상.

연산 효율: 적은 양의 파라미터 -> 적은 연산량 -> 효율 & 예측 성능 높음

 


그림 1. Frequency Interpolation Time Series Analysis Baseline(FITS) 방법론 개요도

FFT: Fast Fourier Transformation, 고속 푸리에 변환

 

 

그림 2. FITS와 Baseline 방법론들의 Benchmark 예측 성능 비교표

 

그림 3. FITS과 Baseline 방법론들의 연산량 비교표

 

 

* 주파수 방법이 사용되는 경우

 

1) 주기성(하루 주기 등 규칙적인 것) 또는 반복 패턴이 있는 경우

2) 잡음이 많은 데이터

-> 고주파 성분(짧은 주기)의 노이즈를 제거하고 저주파 성분(긴 주기)의 중요한 정보를 남김

3) 비정형 패턴이나 트렌드가 잘 보이지 않는 경우

-> 시간 영역에서 패턴이 명확하지 않거나 비정형적인 패턴이 있을 때, 주파수 영역으로 변환하여 숨겨진 패턴을 발견

-> 푸리에 변환이나 웨이블릿 변환을 통해 시간 영역에서 잘 보이지 않던 특징을 추출

4) 긴 주기 분석이 필요한 경우

5) 신호처리와 같은 특정 도메인인 경우

 

결론: 주기성을 포함하거나 잡음 제거가 필요할 때, 혹은 비정형적인 패턴을 더 명확하게 파악하고자 할 때 사용하는 방법

     -> 데이터 사전 분석을 통해 해당 방법 사용 여부 검토 필요.

 

 

  • 완전히 무작위적인 데이터에서는 주파수 변환이 효과적이지 않을 수 있음.
  • 하지만 비정형적이거나 시간 영역에서 명확하지 않은 패턴을 가진 데이터의 경우, 주파수 변환은 유용함

 

 



ModernTCN: A Modern Pure Convolution Structure for General Time Series Analysis

Luo, Donghao, and Xue Wang. "ModernTCN: A modern pure convolution structure for general time series analysis." The Twelfth International Conference on Learning Representations. 2024.
 

ModernTCN: Transformer 모델 영감 받은 Convolutional Network 기반으로 General한 시계열 분석 가능한 Temporal Convolution Network (TCN) 모델

 

방법: 시간 패턴 효과적 파악 위해 시계열 데이터 여러 패치로 분할 ->  Feature로 임베딩

Depthwise Convolution, Convolution Feed-forward Network의 새 Convolution 구조 사용으로 우수한 성능

 

Convolution 구조 + Transformer 디자인 통합 = ModernTCN

-> 시계열 예측 분야에서 다양한 신경망 패러다임 간의 결합을 통한 시너지의 가능성

ModernTCN은 시계열 예측 외 감지, 분류, 결측치 복원 등 다양한 시계열 문제에서 좋은 성능

 

Convolution 기반 구성 -> Transformer 기반 예측 모델들에 비해 빠른 학습 속도, 적은 메모리 사용량 

  -> 좋은 성능, 적은 연산량

 

-> 하나의 모델로 다양한 시계열 Task에 공유해서 활용하는 사전학습 시계열 모델의 기반 구조로써 활용 可


그림 4. ModernTCN이 제안한 Temporal Convolution Block 디자인

 

그림 5. ModernTCN의 성능 (왼쪽) 및 성능대비 학습시간 (오른쪽) 비교 그림

 


 

깃헙 링크: https://github.com/luodhhh/ModernTCN

 

GitHub - luodhhh/ModernTCN: This is an official implementation of "ModernTCN: A Modern Pure Convolution Structure for General Ti

This is an official implementation of "ModernTCN: A Modern Pure Convolution Structure for General Time Series Analysis" (ICLR 2024 Spotlight), https://openreview.net/forum?id=vpJMJerXHU -...

github.com

 

 

 

 


TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting

Wang, Shiyu, et al. "TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting." The Twelfth International Conference on Learning Representations. 2024.

TimeMixer: 시계열의 다양한 패턴을 포착하기 위해 다양한 스케일로 샘플링 된 다중 스케일 시계열 활용

 

방법:  다양한 스케일에서 시계열 데이터를 Trend 및 Seasonality 구성 요소로 분해

-> Feature Mixing 진행: 각 구성 요소 특성 반영하여 다중 스케일 시계열의 정보를 혼합

 

Trend 구성 요소에 하향식 (Coarse-to-fine) Feature Mixing 전략,

Seasonality 구성 요소에 상향식 (Fine-to-coarse) Feature Mixing 전략 사용 ->  기존 방법 능가하는 시계열 예측 성능

 

-> 다양한 스케일에서 시계열 데이터를 활용 = 실제 시계열 데이터의 다양한 Dynamics 포착에 유용한 도구로 사용 可


그림 6. TimeMixe 방법론 개요도

 

그림 7. TimeMixer와 Baseline 방법론들의 Benchmark 예측 성능 비교표

 

그림 8. TimeMixer의 Feature Mixing 전략 분석 실험 결과 표

 


상향식/하향식 Feature Mixing 전략은 상대적으로 거시적인 Trend 특성과 미시적인 Seasonality 특성을 잘 반영

-> Trend와 Seasonality의 특성을 잘 반영한 예측 모델은 거시적 추세성, 미시적 주기성이 혼합된 예측 문제 해결에 효과적

 
 

깃헙 링크: https://github.com/kwuking/TimeMixer

 

GitHub - kwuking/TimeMixer: [ICLR 2024] Official implementation of "TimeMixer: Decomposable Multiscale Mixing for Time Series Fo

[ICLR 2024] Official implementation of "TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting" - kwuking/TimeMixer

github.com

 

 
 


TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting

 

Cao, Defu, et al. "TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting." The Twelfth International Conference on Learning Representations. 2023.

 


TEMPO: 언어모델 (GPT-2)를 LoRA로 Fine-tuning하여 시계열 모델을 학습

방법: 시계열 데이터를 STL Decomposition로 Trend, Seasonality, Residual 구성 요소로 분해

          -> 각 구성 요소들을 다수의 패치로 나눠 모델 입력으로 사용

 

다수의 Soft Prompt가 포함된 Prompt Pool 도입, 각 구성요소에 적절한 Prompt 선택 -> 효과적 예측 수행

다양한 Domain 시계열 데이터에 Cross-domain 학습 능력을 보임 ->  시계열 예측 분야에서 LLM 모델 활용 잠재력


그림 9. TEMPO 방법론 개요도

 

그림 10. TEMPO와 Baseline 방법론들의 Benchmark 예측 성능 비교표

 

그림 11. TEMPO와 Baseline 방법론들의 Multimodal 예측 성능 비교표

 


Cross-Domain 학습 능력을 지님. Cross-Domain Learning 바탕으로 Zero-shot Forecasting 실험에서 기존 모델 능가

 

시계열 데이터와 언어 데이터 함께 사용 가능한 Multimodal 예측 모델

-> 언어, 시계열 데이터 함께 사용한 Multimodal Forecasting 실험에 효과적.

 

이러한 Multimodal 예측 모델의 활용 예제)

가격 결정에 복합적 요인 개입 -> 정형 시계열 데이터의 정량적 정보만 이용한 예측은 한계

-> 보다 정확한 예측을 위해 비정형 언어 데이터의 정성적 정보 활용한 원자재 가격 또는 주가 예측 문제 해결에 활용

 

 

 

 



Generative Learning for Financial Time Series with Irregular and Scale-Invariant Patterns

Huang, Hongbin, Minghua Chen, and Xiao Qiao. "Generative Learning for Financial Time Series with Irregular and Scale-Invariant Patterns." The Twelfth International Conference on Learning Representations. 2024.
 

 


* 금융 데이터는 Irregular, Scale-Invariant한 패턴을 지닌 측면에서 다른 시계열 데이터와 구분됨.

 

금융 데이터를 위한 생성 학습 프레임워크 Financial Time Series Diffusion (FTS-Diffusion)

구조: Pattern-conditioned Diffusion, Scaling Autoencoder, Pattern Evolution 세 가지 네트워크들의 조합

방법: Dynamic Time Warping (DTW), K-means Clustering 등의 기법들로 금융 데이터의 복잡한 패턴을 포착 및 활용

활용: 금융 시계열 예측 문제에 대한 Data Augmentation 실험에서 기존의 Baseline 기법들보다 우수,

          Irregular하고 Scale-Invariant한 패턴을 갖는 금융 데이터를 처리에 탁월


그림 12. FTS-diffusion의 방법론 개요도

 

그림 13. FTS-diffusion을 사용한 Data Augmentation 실험 성능 비교

 


FTS-diffusion은 일반적인 시계열 데이터와는 다른 금융 데이터의 특성을 반영한 생성 모델

데이터 증강을 위해 사용되는 생성 모델(예측 모델 아님)

 

금융 데이터의 특성을 반영한 시계열 모델 연구를 생성 모델에서 예측 모델까지 확장한다면

 -> 주가, 환율 등 금융 분야의 시계열 예측 우수 기대.

 

 

* 그외 금융 시계열 예측에 집중한 리뷰 내용

https://blog.naver.com/gdpresent/223058651021

 

 

 

 



Soft Contrastive Learning for Time Series

Lee, Seunghan, Taeyoung Park, and Kibok Lee. "Soft Contrastive Learning for Time Series." The Twelfth International Conference on Learning Representations. 2024.
 

SoftCLT: 시계열 데이터에 특화된 Contrastive Learning 방식으로 시계열 데이터에 내재된 정보, 상관 관계를 효과적 학습

방법: 2개의 Contrastive Learning 기법(Instance-wise Contrastive Learning, Temporal Contrastive Learning) 결합

         -> 시계열 간의 상관 관계 및 시계열 내 시점 간의 상관 관계 효과적 학습

활용: 기존 시계열 표현학습 기법과 결합 可,

         시계열 분류, 이상감지, 예측 등 다양한 Downstream Task에서 우수한 성능


그림 14. SoftCLT[6]의 방법론 개요도

그림 15. SoftCLT의 시계열 분류 (왼쪽 위), 이상감지 (왼쪽 아래), 시계열 예측(오른쪽) 성능 표

 


SoftCLT의 학습 기법: 기존 Representation Learning 기법과 결합하여 더 좋은 Representation 학습

 -> 시계열 분류, 이상감지, 예측에 좋은 성능

즉,  시계열의 특성을 반영해 시계열 데이터의 Representation을 학습하는 기법

 ->  대량의 시계열 데이터 학습으로 다양한 시계열 Task에 공통 활용될 사전학습 모델 학습에 유용

 

 

 



DAM: Towards A Foundation Model for Time Series Forecasting

Darlow, Luke Nicholas, et al. "Dam: Towards A Foundation Model for Time Series Forecasting" The International Conference on Learning Representations. 2024.
 

DAM: 다양한 시계열 데이터셋과 예측 환경을 단일 모델로 처리할 수 있는 통합 예측 모델

방법: 1분~수년 주기 커버하는 437개의 다양한 주파수를 갖는 사전 정의된 Basis 함수로 Basis 기반 해석 가능한 예측

         -> 사전 정의 Basis로 나타내기 위한 Coefficient를 입력 시계열과 함께 활용해 예측 수행,

         -> 이 과정에서 불규칙하게 샘플링 된 시계열 데이터 활용위해 트랜스포머 활용

서로 다른 특성의 다수 시계열 데이터셋을 이용해 학습 可,

-> 다양한 도메인에 우수한 예측 성능 발휘, 다양한 예측 환경에 대한 탁월한 적응성


그림 16. DAM의 방법론 개요도

 

 

좋은 성능인 근거: 논문에서는 다양한 도메인에 걸쳐 학습된 단일 DAM 모델의 성능을 다수의 도메인에서 측정.

-> 여러 도메인에서 각 도메인에 특화해 학습한 예측 모델들과 비슷한 수준의 예측 성능

-> 다양한 예측 문제를 단일 모델로 처리하는 통합 모델의 가능성

학습 과정에 없던 새 도메인에 별도 학습 없이 예측하는 Zero-shot 예측 실험에서 기존 모델들보다 좋은 성능

-> 새로운 예측 환경에 대한 적응성을 증명

 

활용: Cross-domain 예측 성능 및 새 Domain 적응성 갖는 Foundation 예측 모델은 다양한 예측 문제(수요 예측)에 유용


그림 17. DAM와 Baseline 방법론들의 Benchmark 예측 성능 비교표

 

그림 18. DAM와 Baseline 방법론들의 새로운 도메인에 대한 예측 성능 비교표

 

 

 


Conclusion: Towards Future Innovations


근래의 연구 결과들은 단순한 예측 모델 구조와 학습 기법의 발전에 국한되지 않고 전통적인 시계열 분석 방법부터 최근 주목받고 있는 언어모델 및 확산모델까지 다양한 도구를 활용해 기존의 예측 기법의 한계를 극복하는 다양한 방향

 

이번 ICLR 2024에서 발표된 논문들은 이와 같이 다양한 도구를 활용해 시계열 데이터의 본질적인 특성을 반영한 모델을 개발하여 예측 성능을 높이고, 더 나아가 Cross-domain 예측, Zero-shot 예측 등 시계열 예측 분야의 새 가능성을 제시

현업의 의사결정을 보조하기 위한 시계열 예측 문제 해결은 다양한 환경에서 높은 정확도, 신뢰도의 예측

예측 모델은 높은 예측 성능에 더해 새로운 예측 환경에 대한 적응성과, 예측의 근거 확보를 통한 신뢰성을 갖추어야 함

 

 
728x90
반응형