작성자: 17기 김연규
해당 포스팅은 "실전 시계열 분석" 교재를 바탕으로 작성되었습니다.
본격적으로 시계열 분석에 대해 공부하기 전에
시계열 분석과 관련된 용어를 정리하고 EDA 과정을 살펴보았다.
사전관찰
- 쉽게 이야기하면 미래의 어떤 사실을 안다라는 의미이다.
- 데이터를 통해 실제로 알아야 하는 시점보다 더 일찍 미래에 대한 사실을 발견한 것이다.
- 사전관찰은 시계열 데이터를 다루면서 가장 주의해야 할 문제이지만,
- 사전관찰을 제어할 자동화된 코드나 통계적 검증 방법이 없어서 항상 고민해야 한다.
데이터 재구성
일반적인 데이터와 달리 시계열 데이터에 특화된 방법 위주로 살펴보았다.
- 해결하고자 하는 문제에 맞게 데이터의 간격을 조정한다.(필요 이상의 시간 정보 누락)
- 사전관찰을 피하기 위해 가용 데이터를 생산하는 타임스탬프를 사용하지 않는다.
- 유용한 정보가 없다고 판단되어도 관련된 모든 기간을 기록한다.
타임스탬프
- 가장 먼저 생성 과정, 방법 그리고 시기에 대한 질문을 해야 한다.
- 적절한 문서화를 하지 않는다면 그 의미와 기준은 금방 혼동될 것이다.
타임스탬프를 이해하는 가장 좋은 방법:
- 데이터 수집 및 축적과 관련된 코드(설명)를 읽어보거나
- 해당 코드를 작성한 사람과 직접 이야기하는 것
결론적으로 데이터 이해에 대한 최종 책임은 분석가에게 있으므로,
직접 실행 혹은 추론함으로써 가능한 방법을 모두 활용해야 한다.
데이터 정리
1. 누락된 데이터 다루기
대치(전체 값 기반), 보간(인접 데이터 기반), 삭제
1. 포워드 필: 누락된 값 직전의 값으로 채움
2. 이동평균: 평균 혹은 중앙값으로 대치
3. 보간법
당연하지만 사전관찰이 없는 방법의 성능이 나쁘다.
2. 업샘플링과 다운샘플링
시계열 데이터의 출처가 다르면 샘플링 빈도가 다른 경우가 많다.
1) 다운샘플링
- 짧은 기간을 더 긴 기간으로 바꾼다.
- 시간 단위가 실용적이지 않거나 특정부분에 집중하는 경우에 해당된다.
2) 업샘플링
- 다운샘플링의 반대 개념이 아닌, 더 자주 측정하는 것.
- 더 많은 시간이 추가되기는 하지만, 더 많은 정보가 추가되는 것은 아니다.
3. 데이터 평활
1) 이동평균
- 측정 오류와 이상치를 제거하기 위해 사용한다.
2) 지수 평활
- 이동평균과 달리 최근 데이터에 더 많은 가중치를 준다.
- 홀트(추세), 홀트-윈터스(추세 / 계절성) 지수 평활 등이 있다.
- 추세, 계절성 등이 추가될수록 계산이 복잡하여, 예측 목적으로는 부적합하다.
4. 계절성 데이터
- 일반적으로 사람의 행동에 대한 데이터는 계절성을 가진다.
- 다양한 그래프와 통계적 진단법으로 신중히 탐색해야 한다.
시계열 데이터의 EDA
- 일반적으로 사용되는 히스토그램과 산점도를 기본적으로 활용한다.
- 시계열 데이터에 특화된 방법으로는
- 정상성 여부를 판단하기 위해 ACF, PACF 그래프를 활용하며,
- 단위근 존재 여부, ADF 검정을 활용한다.
정상성 여부 파악
- 전통 시계열 등 많은 시계열 모델들은 정상성을 가정한다.
- 차분, 변환, 로그/제곱근 변환을 통해 정상화한다.
- 차분 외의 방법을 적용할 때는 원본에서 가장 중요한 정보가 이후에도 보존되는지 확인한다.
댓글 영역