본 포스팅은 DMQA 김성범 교수님의 ARIMA 모델 - Part 1과 '실전 시계열 분석'의 6장 시계열의 통계 모델을 바탕으로 작성되었습니다.
시계열 분석 스터디 2주차에서는 전통 시계열에 대한 스터디를 진행하였습니다.
특히, AR(자기 회귀) / MA(이동평균) / 지수평활법 / Holt-Winter / 정상성 에 대하여 학습했습니다.
평균은 0으로 일정, 분산의 범위도 크게 벗어나지 않는다.
<정상성 확인 방법>
1. ACF(AutoCorrelation Function)
자기 데이터과 t시점 shift한 데이터의 correlation: autocorrelation t
그래프가 랜덤하게 나타나는 경우는 stationary하다 라고 얘기할 수 있다.
2. PACF(Partial AutoCorrelation Function)
평균 혹은 분산이 시간에 지남에 따라 변하는 경우를 말한다.
<비정상적 확인 방법>
1. ACF
Nonstationary한 경우에는 ACF의 그래프가 천천히 줄어드는 경향을 보인다. 때로는 줄어들었다가 늘어나는 경우도 있지만, 전체적으로는 줄어드는 경향을 보인다고 할 수 있다.
→ 즉 ,ACF 생성하여 일정한 패턴이 있는지 / 감소하고 있는지 등 패턴 확인을 통해 판단 가능하다.
Y: dependent variable
X: Y의 lags 사용 (y의 t시점 shift한 데이터 값)
자기회귀 모델은 기존의 다중 회귀 분석 모델과는 다르다. 왜냐하면 자기회귀 모델은 자신의 과거 값을 이용하여 미래의 값을 예측하기 때문에 즉 자기 자신을 변수로 사용하기 때문에 회귀 분석의 독립성 가정이 위반되기 때문이다. 그렇기 때문에 자기회귀 모델의 변수는 다중 회귀 분석에서 변수를 추정하기 위해 사용하는 최소제곱법을 이용할 수 없다.
AR Model에서 예측 기간이 증가하게 되면 예측의 분산이 감소하게 된다. 오직 유한한 이전 시점만 입력 데이터에 대한 계수에 영향을 미치기 때문에 예측의 기간이 멀어질수록 실제 데이터의 중요도는 더 떨어지게 된다. 해당 부분이 모델의 한계점이다. 예측의 기간이 늘어날수록 미래의 예측은 실제 데이터의 평균에 가까워지게 된다. 아래의 표를 확인하면 된다.
즉, AR 모델은 단기 예측에 가장 적합하다.
t시점에서 y를 t시점과 그 이전 시점의 앱실론으로 표현할 수 있다.
t 시점에서 y를 앱실론으로 표현하고 모델링을 진행한다.
여기서 말하는 앱실론은 past error으로 오차항이다.
이동평균 모델은 각 사건이 개별로 현재의 값에 기여를 한다는 점이 중요하다.
AR, MA, ARMA 모델은 데이터가 stationary일 때 사용할 수 있다.
즉, 시간이 지남에 따라 평균과 분산이 일정한 경우만 사용할 수 있다.
구간 평균법: 과거시점의 일정 기간(N)의 평균으로 다음 시점을 예측하는 것
<과정>
1. N을 결정한다.
2. 과거 N기간 동안의 데이터를 평균(산술 평균)을 구한다.
3. 예측한다.
구간 평균법의 특징은 과거 N 데이터에 모두 동일한 가중치를 준다는 점이다. 이 말은 가장 오래된 데이터와 가장 최근의 데이터의 중요도가 동일하다는 의미이기도 하다.
또한 구간 평균법으로 예측한 미래의 예측값은 시점과 상관없이 모두 동일하다. 즉 10시점 예측값과 50시점 예측값이 모두 동일하다는 의미이다.
따라서 구간 평균법은 특정한 트렌드나 seasonal variation이 없는 데이터에 사용하는 것이 적절하다.
<구간 평균법에서 과거 N 시점을 결정하는 방법>
N 값이 작을수록, 최근 데이터의 경향을 더 많이 반영할 수 있다.
N 값이 클수록, 과거 데이터를 더 많이 반영할 수 있다. 이는 큰 흐름 파악이 중요할 때 사용할 수 있는 방법이다.
지수 평활법은 구간 평균법에서 한계점이었던 과거 데이터의 산술 평균이 아니라 가중 평균을 이용한다.
지수 평활법이라는 이름에서 알 수 있듯이, 지수 분포 모양에 근거하여 가중치를 결정한다.
즉, 최근 데이터에 보다 많은 가중치를 두고 과거로 갈수록 가중치가 줄어든다.
모든 과거 데이터를 포함하여 계산한다. (반면에 구간 평균법은 과거 모든 시점을 이용한 것이 아니라 N시점까지만 이용하였다.)
최근 데이터에 보다 큰 가중치를 부여한다.
*지수 분포의 특징: 처음에는 감소 속도가 빠르지만 점점 감소하는 속도가 느려진다
Hyper-parameter 알파는 보통 0.2나 0.3을 사용한다
큰 알파값을 사용한다는 것은 최근 데이터에 보다 큰 가중치를 적용한다는 의미이다.
대부분의 소프트웨어에서 최적의 알파값을 자동적으로 계산이 가능하다.
<단순지수 평활법의 한계>
-트렌드가 있는 데이터에 적합하지 않다.
-계절적 변동이 있는 데이터에 적합하지 않다.
-미래시점에 관계없이 예측값이 모두 동일하다.
이중지수평활법은 단순지수평활법을 2번 적용한 것이다.
1. Determine L0 and B0 with regression
-종속변수(Y): 관측값, 독립변수(X): 시간 인덱스 // L0는 기울기, B0는 Y절편을 결정
2. Determine Lt+1 Smooth with
Lt+1 = 알파 Dt+1 + (1-알파)(Lt + Bt)
Bt: Growth Rate
3. Determine Bt+1 Smooth with B
4. Forecast(renumber forecast time periods) : 예측값이 시간에 지남에 따라 다르다. 즉, 트렌드를 반영할 수 있다
-즉 베타 만큼의 가중치를 주어서 B라는 트렌드를 반영한다.
Hyper-parameter: 알파, 베타
즉, 지금까지의 모델은 X가 없고 y값의 자기 자신의 과거 데이터만을 이용하여 미래 데이터를 예측하는 것이다.
이중지수평활법은 지수평활법에서 1) 과거 데이터를 다른 가중치를 통해 활용한다는 점, 2) growth rate를 통해 트렌드는 반영한다는 점이 다르다. 그러나 여전히 seasonal trend를 반영하지 못한다는 한계점이 있다.
1) Additive Winter's method: time series with constant (additive) seasonal variations
즉, 계절 변동 산포 일정할 경우 (높이가 일정하다)
2) Multiplicative Winter's method: time series with increasing (multiplicative) seasonal variations
즉, 계절 변동 산포 증가할 경우 (높이가 일정하지 않다)
lt: level at time T
bt: growth rate at time T
snt: additive seasonal factor
타워 값은 예측할 시점을 의미함
Smoothing이라는 평활법은 평균을 취한다는 공통점이 있다. 이는 단순 평균이든 가중 평균이든 상관이 없다. 과거 시점의 값들을 평균을 취하여 noise를 평평하게 한다는 점이 중요한 점이다. 그러나 평활법은 문제점은 오르락 내리락하는 trend의 반영이 어렵다는 점이다.
시계열 분석 스터디 3주차(김희준) ARIMA, SARIMA (0) | 2023.03.23 |
---|---|
시계열 분석 스터디 3주차(우명진) - ARIMA (0) | 2023.03.23 |
시계열 스터디 3주차(신윤): 비정상성 판단, ARIMA, SARIMA, VAR (0) | 2023.03.23 |
시계열 스터디 3주차(조성윤): 비정상성, ARIMA, SARIMA (0) | 2023.03.23 |
[시계열 스터디 3주차(엄기영)] (0) | 2023.03.22 |
댓글 영역