본문 바로가기
TechStudy/TimeSeries

기본 개념

Time series: 시간(t)에 따라 sequentailly 기록된 것

 

이 관측된 것을 분석하여 미래 예측 = Time Seriese Forecasting

 

[실질적 과제]

1. 예측 uncertantiy: 이에 대한 신뢰도, 불호가실성에 대한 정량 평가 고려 필요(적합한 확률분포 모델 고려)

2. 데이터내 패턴 파악: trend, seasonality, cycle 등의 유형 파악. 보통은 복잡하게 섞여서 찾기 어려움

 -> 규정되지않는 불규칙 패턴(fluctuation)은 random component로 분류

3. 다변량 시계열 데이터(multiple time-series): t에 따라 기록된 수많은 변수들 한 번에 분석

 -> 각 변수들 간 상관관계 파악, 효율적 처리, 학습을 위한 알고리즘 필요

4. 노이즈 데이터, 미관찰 기간 존재 -> 적절한 전처리 과정 매우 중요

 

[예측 모델 평가]: 테스트 구간 이전을 기반으로 테스트 구간 예측하여 실제 테스트 구간의 값과 비교

1. Sliding Window: 일정 범위의 값을 비교할 때 사용

ex) 정수로 이루어진 배열 [2,4,7,10,8,4,5,6,7,1] 에서 길이가 3인 서브배열의 합계가 가장 큰 서브배열은?

-> for문으로 모두 순회하는 비효율적인 방법 대신 중복되는 요소(공통 요소)들을 재사용하여 완료된 계산을 줄이는 방식

 

2. Expanding Window: 데이터 길이가 부족할 때 확장하여 학습 및 테스트 데이터 추출

Cross-validation for time-series forecasting model

 

예측 모델의 평가는 특정 성능 지표(RMSE 등) 뿐만 아니라 residual error의 분포, 시간축에 따른 Error의 propagation 패턴을 분석하여 모델의 bias가 있는지 혹은 overfitting 여부 등에 대한 검토도 이뤄짐

 

Decomposition of time-series data

 

전통 시계열 데이터: 위 4가지 패턴이 linear 조합으로 이뤄진 additive model 가정

 

분석 모델 패턴 구성에 따라 개별 component의 수학적 모델 다양함

-> 주어진 데이터에 맞는 모델 찾는 과정 = 예측모델 설계 과정

 

 

 

전통 시계열 예측 모델 예제 (ARIMA: Autoregressive integrated moving average)

Autoregressive: 예측시첨 t-0은 과거 p개 포인트 (t-1, ... t-p)와 관련 있음

  -> 이를 이용하여 미래 값 예측하는 회귀모델

 

 

*residual(잔차): 추정값과 관측값 차이

 

백색 잡음(white noise): 패턴없이 무작위 잡음 -> 시계열 데이터 전처리 = 백색잡음 획득 (분석 및 예측)

 ㄴ 특징1: residual(잔차) 평균 = 0인 정규분포, 일정 분산

 ㄴ 특징2: Autocorrelation(자기상관성: t 시간에 따른 상관성) 없어야 함. = 각 데이터 포인트 독립성 i.i.d

       -> Autocorrelation = 0

       -> ACF, PACF 등의 함수를 통해 확인

이 두 특징이 만족하지 않는다면 모델 개선여지가 있음을 의미

 

모델 개선여지 여부 파악: residual 시각화 그래프 변동이 이전보다 작아졌으면 개선된 것

 

 

 

 

잔차 진단(시계열 데이터 모델 기본 가정)

1) 정상성(Stationarity): t와 무관하게 일정 상태 유지 (Autocorrelation과 homoskedasticity; 등분산성) 아루르는 개념 

   -> 단위근(Unit Root = 내재적 패턴 존재) 여부 검정

   -> ADF, KPSS 검정을 통해 진행

 

2) 정규분포(Normal distribution): Shapiro-Wilk test, Kolmogorov-Smirnov test 등으로 검정

 

3) 자기상관성(Autocorrelation): Ljung-Box test, Portmanteau test 등으로 검정

 

4) 등분산성(homoscedasticity): 예측변수의 모든 값에서 회귀선과 예측값의 분산(잔차)이 일정해야 함

  -> Goldfeld-Quandt test, Breush-Pagan test 등으로 검정

 

 

 

 

시계열 데이터 전처리

1) 요소 분해법(Decomposition): 내포된 변동요인이 고정된 패턴

    ㄴ 가법모형(Additive): 덧셈연결; 선형적, Trend, Seasonal, Cycle이 서로 독립적이라 가정할 수 있는 경우

 $$ y_{t} = S_{t} + T_{t} + C_{t} + R_{t} $$

    ㄴ 승법 모형(Multiplicative): 곱셈연결; 비선형적, Trend, Seasonal, Cycle이 서로 영향을 주고받는 경우

 $$ y_{t} = S_{t} * T_{t} * C_{t} * R_{t}  $$

 

2) 평활법(Smoothing): 다양한 변동요인이 고정 패턴이 아님

    ㄴ 이동평균 평활법(MA Smoothing): 과거~현재 시계열 자료로 일정기간 이동평균 계산 후 이들 추세로 다음기간 예측

    ㄴ 지수평균 평활법(Exponential Smoothing): 모든 시계열 자료로 평균 구하고, 최근 시계열에 가중치 부여하여 미래 예측

 

3) 변동폭이 일정하지 않은 경우 log 변환

 

4) 추세, 계절성이 있는 경우 Differencing(차분)

 

 

 

 

 

 

Stochastic(확률적) 시계열 모형: 잔차(residual)의 양상을 시각화(백색 잡음 존재 전제)

 

확률모형 분석:

  1) Model identification: ACF, PACF 등의 지표와 ARMA, ARIMA로 적합한 모형 선택

  2) Parameter Estimation: 설정한 모델에 맞는 모수(계수) 추정 후 적합성 검토

  3) Statistical Testing: 모델 적합도에 따른 잔차 정상성, 분석결과에 대한 검정 수행

  4) Forecasting: 분석모델로 미래값 예측

 

 

자기상관함수

1) AutoCorrelation Function(ACF): lag(시차)에 의한 연속적 관측값 사이 상호 연관관계

  -> 시차가 클수록 0으로 수렴

   = 정상성 파악 (정상 시계열은 빠르게 0에 수렴. 비정상은 천천히 감소)

   = 시점만 다른 특정 변수들의 관계

2) Partial ACF(PACF): lag(시차)가 다른 두 시계열간 순수한 상호 관계 (부분자기상관함수)

 

 

 

 

 

 

그외 기본 개념 내용은 링크 https://velog.io/@dankj1991/time-series-3-ARIMA 참조

728x90
반응형