상세 컨텐츠

본문 제목

시계열 분석 스터디 1주차(김연규)

본문

 

작성자: 17기 김연규
해당 포스팅은 "실전 시계열 분석" 교재를 바탕으로 작성되었습니다.

 


 

본격적으로 시계열 분석에 대해 공부하기 전에

시계열 분석과 관련된 용어를 정리하고 EDA 과정을 살펴보았다.

 

사전관찰

  • 쉽게 이야기하면 미래의 어떤 사실을 안다라는 의미이다.
  • 데이터를 통해 실제로 알아야 하는 시점보다 더 일찍 미래에 대한 사실을 발견한 것이다.
  • 사전관찰은 시계열 데이터를 다루면서 가장 주의해야 할 문제이지만,
  • 사전관찰을 제어할 자동화된 코드나 통계적 검증 방법이 없어서 항상 고민해야 한다.

 

데이터 재구성

일반적인 데이터와 달리 시계열 데이터에 특화된 방법 위주로 살펴보았다.

  1. 해결하고자 하는 문제에 맞게 데이터의 간격을 조정한다.(필요 이상의 시간 정보 누락)
  2. 사전관찰을 피하기 위해 가용 데이터를 생산하는 타임스탬프를 사용하지 않는다.
  3. 유용한 정보가 없다고 판단되어도 관련된 모든 기간을 기록한다.

 

타임스탬프

  • 가장 먼저 생성 과정, 방법 그리고 시기에 대한 질문을 해야 한다.
  • 적절한 문서화를 하지 않는다면 그 의미와 기준은 금방 혼동될 것이다.

타임스탬프를 이해하는 가장 좋은 방법:

  1. 데이터 수집 및 축적과 관련된 코드(설명)를 읽어보거나
  2. 해당 코드를 작성한 사람과 직접 이야기하는 것

결론적으로 데이터 이해에 대한 최종 책임은 분석가에게 있으므로,

직접 실행 혹은 추론함으로써 가능한 방법을 모두 활용해야 한다.

 

데이터 정리

1. 누락된 데이터 다루기

대치(전체 값 기반), 보간(인접 데이터 기반), 삭제

 

1. 포워드 필: 누락된 값 직전의 값으로 채움

2. 이동평균: 평균 혹은 중앙값으로 대치

3. 보간법

 

당연하지만 사전관찰이 없는 방법의 성능이 나쁘다.

 

2. 업샘플링과 다운샘플링

시계열 데이터의 출처가 다르면 샘플링 빈도가 다른 경우가 많다.

 

1) 다운샘플링

  • 짧은 기간을 더 긴 기간으로 바꾼다.
  • 시간 단위가 실용적이지 않거나 특정부분에 집중하는 경우에 해당된다.

 

2) 업샘플링

  • 다운샘플링의 반대 개념이 아닌, 더 자주 측정하는 것.
  • 더 많은 시간이 추가되기는 하지만, 더 많은 정보가 추가되는 것은 아니다.

 

3. 데이터 평활

1) 이동평균

  • 측정 오류와 이상치를 제거하기 위해 사용한다.

 

2) 지수 평활

  • 이동평균과 달리 최근 데이터에 더 많은 가중치를 준다.
  • 홀트(추세), 홀트-윈터스(추세 / 계절성) 지수 평활 등이 있다.
  • 추세, 계절성 등이 추가될수록 계산이 복잡하여, 예측 목적으로는 부적합하다.

 

4. 계절성 데이터

  • 일반적으로 사람의 행동에 대한 데이터는 계절성을 가진다.
  • 다양한 그래프와 통계적 진단법으로 신중히 탐색해야 한다.

 

시계열 데이터의 EDA

  • 일반적으로 사용되는 히스토그램과 산점도를 기본적으로 활용한다.
  • 시계열 데이터에 특화된 방법으로는
  • 정상성 여부를 판단하기 위해 ACF, PACF 그래프를 활용하며,
  • 단위근 존재 여부, ADF 검정을 활용한다.

 

정상성 여부 파악

  • 전통 시계열 등 많은 시계열 모델들은 정상성을 가정한다.
  • 차분, 변환, 로그/제곱근 변환을 통해 정상화한다.
  • 차분 외의 방법을 적용할 때는 원본에서 가장 중요한 정보가 이후에도 보존되는지 확인한다.

관련글 더보기

댓글 영역