작성자 : 14기 김태영
해당 포스팅은 "실전 시계열 분석" 교재와 실습코드 / 고려대학교 DMQA 강의와 강의자료 / K-Mooc 전치혁 교수님 강의를 기반으로 작성되었습니다.
https://www.youtube.com/watch?v=ma_L2YRWMHI&list=PLpIPLT0Pf7IqSuMx237SHRdLd5ZA4AQwd&index=9
http://www.kmooc.kr/courses/course-v1:POSTECHk+IMEN677+2021_T2/about
시계열의 벡터의 개념이 적용되는데 이는 여러 시계열을 동시에 고려하여 상호 연관성을 분석하기 위함이다.
다음과 같은 3개의 시계열이 있는 경우로 생각해볼 수 있다.
이 세가지 시계열은 직관적으로 생각해도 상호 연관성이 존재할 것이다. 이와 같은 여러 시계열을 고려하기 위해 벡터 시계열을 구성하고 다음과 같이 표현된다.
$Z_{t}$ = $\begin{pmatrix}Z_{1t}\\Z_{2t}\\Z_{3t}\\ \end{pmatrix}$ , $t = 1,2, \cdots (time)$
이와 같이 여러 시계열을 동시에 고려하는 대표적인 모형이 VAR 모형이다.
VAR 모형은 다음의 모형별 비교로 이해할 수 있다.
일반화한 VAR 모형은 다음과 같다.
VAR은 이전의 AR, MA, ARIMA 계열과 약간은 다른 분석 과정을 거친다.
<VAR 분석 과정>
위 도식과 같이 본격적인 VAR 분석 이전에 Granger Casuality 분석을 진행해야 한다.
자세한 내용은 이제 서술하겠지만 서로 다른 시계열 간 인과관계가 있는지 검정하는 것인데 여기서 인과관계가 드러나지 않는다면 굳이 VAR을 사용하지 않고 시계열 간 별도의 모형으로 분석하면 되기 때문이다.
먼저 왼쪽 축인 정상적 시계열일 경우의 과정들을 살펴보자.
1) 정상성
VAR의 정상성을 판단하는 조건은 다음과 같다.
2) 단일 시계열 내의 auto correlation + 시계열들 간의 correlation 확인
이전의 모형들과 같은 방식으로 진행하되 VAR에서는 다수의 시계열을 고려하기에 시계열 간의 correlation도 살펴봐야 한다.
이 과정은 변수 및 시계열 간의 관계를 확인하기 위한 작업으로 이후의 모형 구축에 참고하지만 정상성 확인 단계에서의 정상성 교정과 같은 후처리 과정은 따르지 않는다.
다수의 시계열의 correlation은 Correlation table과 Heatmap을 그려 확인해보면 된다.
3) Granger Casuality Test
이전까지의 단계에서는 시계열 A가 시계열 B에 영향을 미쳤는지, 시계열 B가 시계열 A에 영향을 미쳤는지 까지는 알 수 없다. 즉 이전까지의 단계에서는 인과관계의 유무와 방향을 확인할 수 없다.
이를 알기 위해서 하는 검정이 Granger Casulity 검정이다.
귀무가설 = 두 변수 사이에 Granger Casuality가 없다. = 한 변수가 다른 변수를 예측하는데 도움이 되지 않는다.
핵심 아이디어 = $X_{t}$의 과거 값을 사용하여 그렇지 않을 때 보다 $Y_{t}$의 값을 보다 정확하게 예측할 수 있다면 $X_{t}$가 $Y_{t}$에 영향을 미친다고 결론을 내리자! 이를 $X_{t}$가 $Y_{t}$를 Granger Cause 한다고 명명하자!
검정 절차는 F-test의 메커니즘과 동일하다.
위 핵심 아이디어대로 검정하는 절차는 다음과 같다.
이렇게 설정된 검정 과정을 $X_{t}$의 $Y_{t}$에 대한 영향, $Y_{t}$의 $X_{t}$에 대한 영향 두가지 검정을 실시하고 동시에 lags를 바꾸어 가며 반복해 검정한다. 이 때 lags는 사용자가 적당하다고 생각한 수준까지 휴리스틱하게 설정한다.
이렇게 검정을 하면 총 4가지 경우가 생길 수 있고 각각의 해석은 다음과 같다.
마지막 경우와 같이 영향이 없다고 판정되더라도 입력한 lag에 따라 결과는 달라질 수 있어 반드시 영향이 없거나 있다고 확정할 수는 없다. 하지만 어느 정도 신뢰성이 있다고 판단된다면 쌍방의 영향이 없는 상태이기에 VAR 분석을 할 이유가 없다.
다시 말해, 마지막 경우에 해당되지 않을 때에만 VAR 분석을 진행한다.
4) VAR 분석
이전의 다른 모형들과 마찬가지로 VAR 또한 그 파라미터 p값을 정해야 한다.
ARIMA의 경우 ACF, PACF 그래프를 살펴보고 그 파라미터들을 정하는 방법이 존재했으나 VAR은 교차 상관관계가 존재해 이 방법으로 파라미터 p를 정하기 쉽지 않다.
따라서 정보 기준 (information criteria)를 사용한다.
여러 시차에 대해 대표적인 criteria인 AIC, BIC, HQ 등을 산출하고 이 정보 기준 값이 최소인 시차 p를 선택하는 방식인데 실제로 많이 사용되는 방식이다.
각 criteria 마다 최소값을 반환하는 p가 다를 수 있지만 여러 지표를 기준으로 최소값을 가장 많이 반환하는 p를 선택해 사용한다.
이렇게 구축된 모형의 각 계수와 그 유의성을 확인한 후 분석한 시계열들이 서로 영향을 끼치고 있는가를 확인한다.
5) 충격반응함수 (IRF, Impulse-Response Function)
충격반응함수, IRF는 한 시계열에 특정시점에서 충격이 발생할 때 다른 시계열에 시간에 따라 어떤 영향을 주는지 분석하기 위해 사용된다.
서로 간의 영향력은 4) VAR 분석 결과로 나온 VAR result table의 coefficient를 통해서 확인할 수 있지만 이는 한계가 있기에 IRF를 사용한다.
VAR(1) 모형을 다시 상기해보자.
충격과 반응은 다음과 같이 가정해보자.
충격 = 시점 1에서 $Z_{1t}$에만 $\sigma_{1}$의 충격이 있고 $Z_{2t}$에는 충격이 없음, 다른 시점에는 충격 없음
<가정>
반응 / 반응함수 = 시간에 따른 $Z_{1t}$, $Z_{2t}$에의 영향
이러한 과정으로 분석하는 것을 충격반응함수 IRF라고 한다.
위 내용은 간단한 VAR(1) 모형으로 살펴보았는데 t=1이 아닌 모형에 대해 위 과정을 그대로 수행하게 된다면 여러 문제점이 있다.
이에 다음과 같은 모형 변환 과정을 거쳐야 한다.
MA형태에서 직교오차 MA 형태로 분해하기 위해서는 $\sum$의 분해가 필요하다.
이를 위해 다음의 과정을 거친다.
위 과정을 거친 후 최종적인 직교오차 MA 형태를 갖게 된다.
IRF는 다음과 같이 표기된다.
IRF(i, j, s) = j번째 시계열의 충격에 대한 i번째 시계열의 시간 s 이후의 반응 = $\Psi_{s}$ 의 (i,j) 원소
6) 예측오차 분산분해
예측오차 분석분해는 미래값을 예측하고 예측오차의 분산을 시계열별로 분해하는 과정을 의미한다.
어떤 시계열이 상대적으로 어떤 영향을 끼치고 있는지 중요도를 산출하기 위함인데 위 과정을 통해 소득과 저축이 소비에 모두 영향을 주고 있다고 분석하더라고 소득이 소비에 더 큰 영향을 미치는지, 저축이 더 큰 영향을 미치는지, 즉 어떤 시계열이 더 주요한 영향을 미치고 있는지 파악할 수 있도록 하는 것이 예측오차 분산분해이다.
예측 오차에는 여러 시계열 변수들의 충격이 포함되어 있는데 이 예측오차의 분산을 VAR에 구성된 시계열 변수의 오차의 중요성을 파악하는 것으로 그 중요성을 판단하는 것이다.
다음과 같이 계산된다.
이전까지 다룬 VAR 모형은 정상적 시계열에 대해서만 적용된다.
하지만 경제/금융 관련 시계열은 비정상성을 띄는 경우가 많다. 동시에 장기적으로 균형 관계를 갖는 경우가 많은데 소득과 소비가 그 예시이다.
소득과 소비 모두 계절성을 띄는 등 여러 이유로 비정상성을 띄게 되는데 직관적으로 이 둘은 장기적으로 균형적인 관계를 갖는다.
이런 관계를 공적분 (Cointegration) 관계라 한다. 자세한 내용은 이후에 다루겠다.
AR, MA, ARIMA에서 비정상성을 띄는 시계열의 정상성 확보를 위해 대표적으로 쓰이는 방법이 차분이다.
VAR에서도 물론 차분을 통해 정상성을 확보할 수 있다.
하지만 각각을 차분하여 정상적 시계열로 변환한 후 VAR 분석을 하는 것보다 직접적으로 회귀 모형화하여 분석하는 것이 더 많은 정보를 얻을 수 있다.
이는 차분을 하게 되면 변수 간 장기적 관계에 대한 정보를 상실하기 때문이다.
여기서 유의할 점은 두가지가 있다.
1) 누적 (integrated) 벡터 시계열
누적 벡터 시계열은 다음과 같이 정의된다.
벡터 시계열 $(x_{t}, t>=1)$에 대해 $((1-B)^{d-1}x_{t}, t>=1)$는 비정상적이나 $((1-B)^{d}x_{t}, t>=1)$이 정상적일 때, 차수 d의 누적벡터 시계열이라고 하며 $(x_{t}, t>=1) ~I(d)$로 표기한다.
즉, 어떤 비정상적인 시계열이 1차 차분 후 비정상성을 띄고 2차 차분 후 정상성을 띈다면 이 시계열을 차수 2의 누적벡테 시계열이라고 한다.
2) 공적분 (Cointegration)
$I(d)$인 누적벡터 시계열을 선형결합 $\alpha^{T}x_{t}$ 했을 때 이것이 차수 d 미만의 누적벡터시계열이 될 때, 공적분 벡터 $\alpha$를 갖는 공적분 관계에 있다고 한다.
이 때 총 m개의 시계열이 있을 때 최대 m-1개의 공적분 벡터가 있을 수 있고 존재하는 공적분 벡터의 최대 갯수를 공적분 랭크라고 한다.
3) 오차수정모형 (Error Correction Model, ECM)
공적분을 다룬 이유는 이 ECM 표현을 위해 공적분 관계가 필요충분조건이기 때문이다.
이 오차수정모형은 여러 시계열이 공적분 관계가 있을 때 ECM을 통해 시계열 상호간의 미치는 단기, 장기 효과를 분석할 수 있기 때문이다.
시계열 간 균형 오차를 구해 오차수정모형으로 검정하면 각 계수(다른 시계열의 영향력)의 유의성이 있는지 확인할 수 있다.
ECM을 유도하는 예는 다음과 같다.
다음은 일반화된 ECM이다.
이 ECM을 벡터 ECM(VECM)으로 확장하면 다음과 같다.
4) 공적분 검정
공적분 검정을 위해서는 다음과 같은 두가지 검정이 주로 사용된다.
지금까지의 시계열 모형에서는 오차항은 일정한 분산을 갖는 독립적인 백색잡음으로 가정하였다.
하지만 금융 관련 시계열에서의 잔차는 백색잡음처럼 보이기는 잔차의 절대값 또는 제곱값은 자기 상관관계를 갖는 경우가 대부분이다.
또한, 오차항의 분산이 시간에 따라 일정하지 않고 변한다는 관측도 있다.
특히 재무 상품에서는 변동성 분석이 중요한데 많은 분석이 이 경우에 해당한다.
따라서 오차항의 조건부 분산에 대한 모형을 고려해야 하는데 이를 위한 대표적인 모형이 ARCH이며 이후 다룰 GARCH는 ARCH의 일반화 형태이다.
ARCH 모형을 표현하면 다음과 같다.
위의 오차항의 조건부 분산 형태를 ARCH(q) 모형이라 한다.
ARCH 모형의 정상성 조건은 다음과 같다.
위에서 정의한 ARCH 모형은 오차항의 분산에 대한 것으로 분산 방정식이라고 한다.
그리고 기존에 다룬 AR이나 MA 모형을 평균방정식이라 한다.
다음과 같은 예시가 있다.
(예 1)은 조건부 분산이 AR(1)을 (예2)는 MA(1), (예3)은 회귀모형을 따른다.
여기서 ARCH-M (ARCH in mean) 모형도 자주 사용된다.
이는 평균방정식에 조건부 분산을 포함시킨 모형이다.
평균방정식이 회귀 모형인 경우 ARCH-M의 형태는 다음과 같다.
GARCH 모형은 ARCH 모형을 일반화, 확장한 모형이다.
GARCH는 조건부 분산항에 과거 시차의 조건부 분산항들이 추가된 것으로 형태는 다음과 같다.
GARCH의 정상성 조건도 ARCH와 유사하다.
예측 과정을 알아보기 위해 평균방정식은 상수와 오차항 만으로 이루어진 수평적 모형을, 분산 방정식 또한 오차항의 조건부 분산이 GARCH(1,1)을 따른다고 가정해보면 다음과 같다.
Ref
시계열 분석 스터디 4주차(우명진): VAR (0) | 2023.03.30 |
---|---|
시계열 분석 스터디 4주차(김연규): VAR, ARCH/GARCH (0) | 2023.03.30 |
시계열 분석 스터디 3주차(김희준) ARIMA, SARIMA (0) | 2023.03.23 |
시계열 분석 스터디 3주차(우명진) - ARIMA (0) | 2023.03.23 |
시계열 분석 스터디 2주차(우명진) - 전통 시계열 (0) | 2023.03.23 |
댓글 영역