본문 바로가기

data/time series regression_시계열분석

1. 시계열 데이터 이해

안녕하세요, 
이번 장부턴 본격적으로 시계열 데이터에 대해 알아보도록 하겠습니다.
 
시계열 분석 방법론 이전에 
시계열 데이터가 어떤 구성요소를 지니는지 그 기본부터 하나씩 알아보고자 합니다:)
 
 

1) 시계열 데이터 개념

시간의 흐름에 따라 순서대로 관측되어 시간의 영향을 받는 데이터를 의미합니다.
 
- Daily(일), Monthly(달), Quarterly(분기), Yearly(년)
일별로, 달별로, 분기별로 등 다양한 관점에서 시계열 데이터를 바라볼 수 있겠습니다. 
 
- 시계열 데이터 예시 : 시간에 따른 제품 판매량, 재고량, 실업자 수, 항공 승객 수 
이처럼 시간에 따라 살펴볼 수 있는 데이터는 다양합니다
 

 
위 그림처럼 시간에 따른 항공 승객 수를 보았을 때, 전체적으로 우상향하는 추세 뿐만 아니라 주기적으로 오르락 내리는 양상 즉, 계절적 패턴도 보임을 알 수 있습니다. 또한 그 편차가 점점 최근에 들어 더 큰 폭으로 변화함을 확인할 수 있습니다.
 
 

2) 시계열 데이터 구성요소

시계열 데이터는 다음과 같이 크게 네가지로 이뤄져 있습니다.
 
(1) 추세 (추세변동, trend) : 전체적인 증가/감소 추세를 의미함. 
(2) 주기성 (순환변동, cycle)
(3) 계절성 (계절변동, seasonal variations) : cycle의 일부로, 월별, 주별, 계절별 등 주기적 요인에 의한 변동을 의미
(4) 불규칙요소(우연변동)

 
 

 
 

2.1 ) 시계열 분해

시계열 분해를 통해 시계열 데이터 구성요소를 살펴볼 수 있습니다.
시계열 데이터를 추세, 계절성, 불규칙 요소로 분해할 수 있습니다. 이처럼 시계열 분해를 통해 데이터를 더 잘 이해할 수 있습니다.
 

 

 
statsmodels 패키지를 활용해 시계열 분해를 할 수 있습니다.
위 예시는 제가 임시 데이터를 바탕으로 월별 계절성과 추세를 살펴본 결과입니다. 월별 계절성은 존재하며, 추세는 우상향을 보입니다.
 
 
 
 
이상 시계열 데이터에 대해 살펴보았습니다.  

 
 
 
출처. 김성범 교수님 (DMQA 연구실)의 강의를 참고해 작성하였으며, 사용된 대부분의 이미지 또한 같은 출처 입니다.