상세 컨텐츠

본문 제목

[시계열 분석 스터디 1주차(우명진)]

본문

2.4 데이터 정리

2.4.1 누락된 데이터(결측 데이터)

-포워드 필: 누락된 값이 나타나기 직전의 값으로 누락된 값을 채우는 가장 간단한 방법

 

-이동평균: 최근 과거의 여러 시간대를 입력한 내용을 사용하여 미래의 값을 예측함

대체로 포워드 필 <  이동평균.

예를 들어 전체 평균에 관한 개별 데이터 값을 의심할 만한 이유가 있다면 더욱 사용해야함.

왜냐하면 포워드 필은 실제 관측값 보다 임의의 노이즈를 포함하지만, 평균은 노이즈의 일부를 제거할 수 있기 때문.

 

-보간법: 전체 데이터를 기하학적인 행동에 제한하여 누락된 데이터값을 결정하는 방법

ex) 선형 보간법: 누락된 데이터가 주변 데이터에 선형적인 일관성을 갖도록 제한 

   사업의 규모가 매년 선형적인 증가 추세라면 적합. 강수량은 선형적인 추세가 아니므로 선형 보간법은 비적절. 

 

 

 

2.4.2 시계열의 빈도 변경(업샘플링, 다운샘플링)

- 수집된 데이터에 대한 타임스탬프의 빈도를 바꿔 샘플링 빈도를 변경하는 것

 

-다운 샘플링: 원본 시계열보다 타임스탬프가 더 낮은 빈도로 발생하게끔 데이터의 부분집합을 만듦

 

-업 샘플링: 실제보다 더 자주 수집된 것처럼 표현

1) 시계열이 불규칙적인 상황

2)입력이 서로 다른 빈도로 샘플링된 상황  → 특정 모델이 현재 보유한 데이터보다 더 높은 빈도를 요구할 경우

 

지금까지 알려진 상태로만 추측하는 경우라면 안전한 업샘플링이 가능. 

 

 

 

2.4.3 데이터 평활

평활(Smoothing): 무작위적인 변화량을 보이는 시계열 데이터에서 무작위적 변화로 생기는 효과를 줄이는 방법들 중 흔히 사용되는 기법.

→ 측정의 오류, 높게 튀는 측정치를 제거하기 위하여 사용한다. 

 

지수평활: 최근에 측정된 데이터일수록 더 유익한 것으로서 다루고 싶을 때 사용한다. 최근 데이터일수록 더 큰 가중치를 둔다. 

→평활 요인(Smoothing factor)라는 alpha parameter 값을 이용하여 기존의 평균 정보를 유지하는 것에 비해 현재의 값을 얼마나 갱신해야 하는지에 대한 영향을 미침. 

 

 

 

3. 시계열의 탐색적 자료 분석

3.1 친숙한 방법

기존의 방법처럼 도표 그리기, 요약 통계 내기, 히스토그램 적용 등을 통해 EDA 진행

 

-시간을 포함하고자 한다면, 시간은 그래프의 한 축 또는 그룹화 연산에 대한 하나의 그룹이 된다

 

 

#히스토그램 

시계열의 맥락에서는 실제 측정치 보다는 한 측정치가 다음 측정치로 변화한 정도가 더 관심있는 정보이다. 

따라서 diff()를 통해 추세를 제거한 데이터는 정규분포를 따르는 형태로 변한다. 

 

 

#산점도 

 

1. 특정 시간에 대한 두 주식 관계

2. 두 주식의 시간에 따른 각각의 가격 변동이 갖는 연관성

시간상 먼저 알게 된 한 주가의 변동으로 나중의 다른 주가의 변동을 예측해야한다. 

따라서 산점도를 그리기 위해서는 두 주가 중 하나를 1만큼 시간상 앞당겨야한다.

R에서 lag()를 이용하여 시간을 뒤로 미루었다. 

 

 

3.2 시계열 특화된 탐색법 - 같은 계열에 속한 서로 다른 시간의 값들 간의 관계에 집중

정상성(stationarity) → 자체상관(self correlation) → 허위상관(spurious correlation)

과거의 장기적 행동이 미래의 장기적인 행동을 얼마나 반영했는가 → 내부적인 역학의 존재 파악 (ex. 계절 변화) → 만약 그 역학이 우리가 알고 싶은 인과관계에 어떠한 의미도 가지지 않는다면 그 역학에 기반한 인과관계를 찾으려면 안된다. 즉, 상관관계는 인과관계가 아니다.

 

 

3.2.1 정상성

개념 : 모든 시차 k에 대해 yt, yt+1, ... ,yt+k의 분포가 t에 의존적이지 않다면 이 과정은 정상이다

평가 지표: 확대된 디키-풀러 augmented Dickey-Fuller(ADF) 검정

         → 귀무가설: 그 과정의 특성방정식의 해가 1인가(시계열에 단위근이 존재하는가)

 

전통적인 모델, 통계 모델을 포함한 수많은 모델이 정상과정을 가정함. 따라서 실전에서 정상성이 중요하다. 

 

 

 

#롤링 윈도

→ 노이즈가 많은 데이터의 추세를 찾거나, 선형동작의 어떤 종류의 편차가 단순한 노이즈인지 조사할 수 있다

R의 filter()를 이용하여 롤링 평균을 계산한다

 

 

 

#확장 윈도

 

확장 윈도는 시간에 따라 크게 변화가 있을 때보다는 안정적인 요약 통계를 추정하는 경우에만 의미가 있음. 

시계열이 진행함에 따라 주어진 시간 동안 모든 데이터를 포함할 때까지 확장 가능하다. 

근본적으로 시스템이 정상일 때만 확장 윈도가 잘 동작한다.

최댓값은 항상 특정 시간까지의 전체 최댓값을 반영하여 확장 윈도를 단조함수로 만들어줌

 

 

 

3.2.3 자체상관

자체 상관은 특정 시점의 값이 다른 시점의 값과 상관관계가 있다는 것이다. 

 

자체상관의 개념의 자기상관(autocorrelation)으로 확장. 특정 시점에 고정되지 않고, 자체상관을 일반화한 개념이다. 

 

자기상관 기능은 서로 다른 시점의 데이터 간 선형적 연관성 정도를 시차에 대한 함수로 알 수 있게 해준다. 

- 자기상관함수 autocorrelation function(ACF)

- 편자기상관함수 partial correlation function(PACF)

 

 

3.2.4 허위상관

 

허위상관을 나타내는 시계열의 일반적인 특징

-계절성 ex) 핫도그 소비와 익사 사이의 허위상관

-시간이 지나면서 변한 데이터의 수준이나 경사의 이동 : 무의미하게 높은 상관관계를 가진 아령처럼 생긴 분포도

-누적 합계: 일부 산업에서는 상관관계를 더 좋아보이게 만들기 위하여 사용

관련글 더보기

댓글 영역