상세 컨텐츠

본문 제목

시계열 스터디 2주차(조성윤)

본문

*본 포스팅은 다음의 참고자료를 바탕으로 작성하였습니다.

1. Practical Time Series Analysis (O'Reily)

https://www.oreilly.com/library/view/practical-time-series/9781492041641/

 

Practical Time Series Analysis

Time series data analysis is increasingly important due to the massive production of such data through the internet of things, the digitalization of healthcare, and the rise of smart cities. … - Selection from Practical Time Series Analysis [Book]

www.oreilly.com

2. K-MOOC 강좌: 시계열 분석 기법과 응용 - 전치혁(포항공대 산업공학과)

http://www.kmooc.kr/courses/course-v1:POSTECHk+IMEN677+2020_1/about 

 

시계열분석 기법과 응용

시계열 데이터 분석을 통하여 시간에 따른 상관관계 등의 패턴 추출 및 이를 바탕으로 미래에 대한 예측을 위한 다양한 기법 학습 및 응용 능력을 배양한다.

www.kmooc.kr

3. 김성범 교수 (고려대 산업경영공학부 DMQA 연구실) 유튜브 강의

(4) Exponential Smoothing (지수 평활법) - YouTube

 

-------------------------------------------------------------------------------------------------------------------------

일반적인 예측(ex) 회귀분석) 기법: 여러 개의 독립 변수(X1,X2,...)를 기반으로 종속 변수 y를 예측함.

시계열 예측: 종속 변수 y 자체의 과거 이력 데이터만을 활용하여 예측함. 즉, 하나의 변수에 대한 시간에 따른 관측.

->   다른 변수는 도입하지 않는다.

(T시점 -> T+1, T+2, ... 시점 예측)

- 시계열의 특성: 추세, 계절성

- 시간에 따른 패턴: 자기 상관성   ->   모형화   ->   미래 예측

- 과거의 패턴이 미래에도 계속될거라고 가정

 

[1] 시계열 평활 기법

*평활 -> 곡선의 평탄화(smoothing) 작업

핵심: 평균을 활용하여 데이터의 noise를 제거한뒤 smoothing을 시키고 이를 예측에 활용한다.

 

(1) 이동/구 평균법(Moving Average) : 매 시점에서 직전 N개의 데이터를 평균으로 산출하여 평활치로 사용

ex) 주식의 5일선 - 직전 5일치의 주가의 캔들 값을 평균으로 나타낸 추세선

출처: https://hyewonleess.github.io/time%20series%20analysis/timeseries-1/
t+1 이후 시점의 예측값

- N이 클수록 평활효과가 크다 (과거 데이터의 경향을 많이 반영하여 편평하게 예측하기 때문)

- N이 작으면 최근 데이터의 경향에 조금 더 중점을 두고 반영한다.

- 단점: 1) 과거의 n개 데이터에 동일한 가중치(1/n)를 둔다, 2) 미래의 예측값이 모두 동일하다.

- 반드시 trend가 없는 수평적 데이터에서 적용해야 한다.

 

(2) 지수평활법(Exponential Smoothing)

- 단순 평균이 아니라 가중 평균을 사용한다. (최근 데이터에 더 많은 가중치를 두고, 과거로 갈수록 가중치가 줄어든다. 더 현실적)

- 지수 분포 모양에 근거한 가중치(초반에는 급격히 감소, 나중에는 원만히 감소)

- 일부가 아닌, 전체 데이터를 사용한다.

 

  • 단순지수평활법(Simple Exponential Smoothing):

a를 평활상수(smoothing constant)로 산정. 이때, 0 < a < 1
t+1이후의 시점에서 지수평활법의 예측값

- 최종 예측값이 마찬가지로 t+1 시점 이후의 모든 데이터를 St로 동일하게 간주한다.

- 가중치 a가 크다 -> 최근 데이터에 보다 큰 가중치 적용 -> "smooth" data

- 가중치 a가 작다 -> 과거 데이터에 보다 큰 가중치 적용(전체 평균, 평활효과) -> "noisy" data

- 보편적으로 a=0.2나 0.3 사용 (알아서 최적의 hyperparameter를 컴퓨터가 계산해준다.)

- 마찬가지로 수평적 데이터에서 주로 활용한다.

- 미래시점의 예측값이 모두 동일하기에 트렌드 있는 데이터에는 적합하지 않다.

- 계절적 변동이 있는 데이터에도 적합하지 않다.

 

  • Holt의 이중지수평활법(Double Exponential Smoothing): 트렌드가 존재하는 데이터에 적합하다. 단순지수평활법을 2번 적용한다.

- hyperparameter가 a, b 2개 설정해야 한다.

- 예측값(F)이 동일하지 않고 어느 정도 trend를 반영하게 된다.

- 하지만 계절변동은 반영하지 못한다.

지수평활법을 활용한 예시 데이터

이중지수 평활을 사용할 경우 예측 오차가 훨씬 더 작음을 알 수 있다. 

따라서 트렌드가 있다면 이중지수 평활법을 사용하는 것이 훨씬 더 예측에 바람직할 것이다.

 

(3) 홀트-윈터 지수평활법(Holt-Winter's Method): 계절적 요인도 추가적으로 고려한다. 일종의 삼중지수평활법이다.

*계절성(seasonality): 데이터가 주기성을 갖는 경우를 지칭.

-> 계절(봄/여름/가을/겨울)뿐만 아니라 주기를 갖춘 모든 경우도 계절성을 띤다.

ex) 분기별 데이터 -> 주기:4, 월별 데이터 -> 주기: 12

  • 가법모형(Additive Winter's Method): 계절 변동 산포가 일정한 경우

  • 승법모형(Multiplicative Winter's Method): 계절 변동 산포가 증가하는 경우

cf. 예측 성능 척도

예측 오차 계산은 회귀분석 과정과 동일하다.

t+1 시점의 오차 (실제값-예측값)

-------------------------------------------------------------------------------------------------------------------------------

[2] AR/MR/ARMA 모형

*정상성(stationary): 시계열 데이터가 추세, 계절성을 포함하지 않는 성질. 비정상(non-stationary) 시계열도 적절한 변환을 통해 정상적인 시계열로 변형할 수 있다.

 

시계열 데이터의 모형을 식별하고 정상성을 판단하는데 다음과 같은 지표들을 고려할 수 있다:

 

  • 자기공분산(autocovariance): 시계열의 시간에 따른 연관 패턴을 요약한 수치

  • 자기상관함수(Autocorrelation Function: ACF)

  • 편자기상관함수(Partial Autocorrelation Function: PACF)

 

다음은 시계열 데이터의 표현방식을 살펴보도록 하겠다.

 

  • 자기회귀(autoregressive: AR) 표현방식

t 시점을 기준으로 과거 시점의 값들을 이용한 회귀식으로 표현한다.

 

- AR(1): 가장 단순한 형태. 시차 1 변수 포함.

*여기서 a(t)는 백색잡음(white noise)이다. 평균 0, 분산 sigma_a^2의 독립인 오차항이다.

회귀모델과 형식이 상당히 유사함을 알 수 있다.

 

- AR(p) 모형: 일반화된 형태. p개의 시차 변수까지 활용.

*이때, ACF 값은 Yule-Walker 방정식을 풀어 산출할 수 있다.

  • 이동평균(movingaverage: MA) 표현방식

t시점의 값을 현재와 과거시점의 백색잡음(white noise)으로 표현한다. 항상 정상성을 갖는다.

AR 형태로 표현되기 위해 일종의 가역성(invertibility) 조건이 필요하다.

 

- MA(1): 가장 단순한 형태. 시차 1 백색잡음 포함.

*오차항들은 AR과 동일한 조건을 갖는다.

*시점 값은 없고, 백색 잡음으로 구성된 것을 알 수 있다.

 

- MA(q) 모형: 일반화된 형태. q개의 시차 변수까지 활용.

 

<AR과 MA의 절단 패턴>

  • AR(p)

-  ACF: 지수적으로 감소하는 형태

- PACF: 시차 p이후 절단

 

ex) p=2

ACF
PACF

  • MA(q)

-  ACF: 시차 q이후 절단

- PACF: 지수적으로 감소하는 형태

 

ex) p=2

 

  • ARMA 모형

AR 방식과 MA 방식이 결합된 형태.

 

- ARMA(1,1): 가장 기본적인 형태. 시차 1의 변수와 백색잡음 둘다 포함.

- ARMA(p,q): 일반화된 형태. 시차 p의 변수와 q의 백색잡음 둘다 포함.

<ARMA 모형의 절단 패턴>

ex1)

ex2)

<총정리>

cf.

Q. 자기상관함수와 편자기상관함수의 패턴을 확인해도 ARMA 모형이 확실하게 식별되지 않는 경우는 어떻게 해야하나?

A: 자기상관함수와 편자기상관함수의 패턴을 통해 가능성이 높은 후보 모형을 정리한 이후에, 모형 선택 척도로 사용이 가능한 AIC (Akaike Information Criterion) 등을 이용하여 최종 모형을 선택한다.

관련글 더보기

댓글 영역