기계 학습을 위한 ARIMA 모델 이해

기계 학습을 위한 ARIMA 모델 이해

자기 회귀 통합 이동 평균 이해에 대한 간단한 소개

자기 회귀 통합 이동 평균은 무엇입니까?

자기 회귀 통합 이동 평균(ARIMA) 모델은 많은 산업에서 많은 용도를 가지고 있다. 식품 제조업의 미래 수요를 결정하는 것과 같은 수요 예측에 널리 사용된다. 그 이유는 이 모델이 관리자에게 공급망과 관련된 결정을 내릴 때 신뢰할 수 있는 지침을 제공하기 때문이다. ARIMA 모델은 또한 과거 가격을 기반으로 한 주식의 미래 가격을 예측하는 데 사용할 수 있습니다. S에 대한 변경 사항을 예측하는 데 도움이 될 수 있습니다.

ARIMA 모델은 시계열 데이터를 예측하는 데 사용되는 일반적인 모델 클래스이기 때문입니다. ARIMA 모델은 일반적으로 ARIMA(p,d,q)로 표시되며, 여기서 p는 자기 회귀 모델의 순서, d는 차이 정도, q는 이동 평균 모델의 순서이다. ARIMA 모델은 차분을 사용하여 비정상 시계열을 고정 시계열로 변환한 다음 과거 데이터에서 미래 값을 예측합니다. 이러한 모형은 데이터의 잔차 오류에 대한 “자동” 상관 관계와 이동 평균을 사용하여 미래 값을 예측합니다.

ARIMA 모델 사용의 잠재적 장점

예측을 일반화하려면 시계열의 이전 데이터만 필요합니다.

단기 예측에서 우수한 성능을 발휘합니다.

비정상 시계열을 모델링합니다.

ARIMA 모델 사용 시 발생할 수 있는 단점

전환점을 예측하기 어렵습니다.

모형의 순서(p,d,q)를 결정하는 데는 상당한 주관성이 수반된다.

계산 비용이 많이 듭니다.

장기 예측에 비해 성능이 떨어집니다.

계절 시계열에는 사용할 수 없습니다.

지수 평활보다 설명이 덜합니다.

ARIMA 모델 구축 방법

ARIMA 모형을 사용하여 회사의 주가를 예측하려고 합니다. 먼저, 지난 몇 년 동안(예를 들어 10년 동안) 회사의 공개 가능한 주가를 다운로드해야 합니다. 이 데이터가 있으면 ARIMA 모델을 교육할 준비가 되었습니다. 데이터의 추세를 바탕으로 이 모형에 필요한 차이(d) 순서를 선택합니다. 그런 다음 자기 상관 및 편 자기 상관을 기반으로 회귀 순서(p)와 이동 평균(q)을 확인할 수 있습니다. AIC(Akaike Information Criterion), BIC(Bayesian Information Criterion), 최대 가능성 및 표준 오류를 성능 지표로 사용하여 적절한 모델을 선택할 수 있다.

ARIMA 모델의 작동 방식 이해

앞서 언급한 바와 같이 ARIMA(p,d,q)는 주가, 수요 예측, 심지어 전염병 확산과 같은 시계열 데이터를 예측하는 데 사용되는 가장 인기 있는 계량경제 모델 중 하나이다. ARIMA 모델은 기본적으로 최종 차분 시계열이 고정되도록 d차 차분 시계열에 장착된 ARMA 모델입니다.

고정 시계열은 평균, 분산, 자기 상관 등과 같은 통계적 특성이 시간 경과에 따라 모두 일정하게 나타나는 시계열입니다. 고정된 영상 시리즈는 비교적 쉽게 예측할 수 있습니다. 즉, 통계적 특성이 과거에 그랬던 것처럼 미래에 동일할 것이라고 예측하기만 하면 됩니다.

ARIMA 모델이 어떻게 작동하는지 이해하기 위해 이름에는 다음과 같은 세 가지 용어가 있습니다.

예측의 두 그래프를 살펴봅시다: Rob J Hyndman과 George Athanasopoulos의 원칙과 실천(2번째)입니다. 왼쪽의 그래프(a)는 구글의 200일 연속 주가이다. 이것은 비정상 시계열입니다. 오른쪽 그래프(b)는 200일 연속 구글 주가의 일별 변동폭이다. 이미지(b)의 값이 관찰 시간에 따라 달라지지 않기 때문에 이미지(b)는 정지해 있습니다. 이 예제에서는 첫 번째 차수 미분 급수가 고정적이므로 차수의 순서가 1이 됩니다.

위의 세 가지 유형의 모델을 모두 결합하면 ARIMA(p,d,q) 모델이 생성됩니다.

결론

ARIMA 방법론은 데이터의 상관관계를 모델링하여 시계열을 가장 잘 나타내는 예측 모델을 분석하고 구축하기 위한 통계적 방법이다. 순전히 통계적 접근 방식 때문에 ARIMA 모델은 예측을 일반화하고 모델을 간결하게 유지하면서 예측 정확도를 높이기 위해 시계열의 과거 데이터만 필요하다.

인색함에도 불구하고 ARIMA 모델을 사용하는 데는 여러 가지 잠재적 단점이 있다. 그것들 중 가장 중요한 것은 p와 q 매개 변수를 식별하는 데 관련된 주관성에서 비롯된다. 자기 상관과 편 자기 상관을 사용하지만 p와 q의 선택은 모델 개발자의 기술과 경험에 따라 달라집니다. 또한 단순한 지수 평활 및 홀트 윈터스 방법에 비해 ARIMA 모델은 더 복잡하므로 설명력이 낮다.

마지막으로, 모든 예측 방법과 유사하게, 뒤돌아봄으로써 ARIMA 모델은 장기 예측에 능숙하지 않고 전환점을 예측하는 데 서툴다. 그것들은 또한 계산적으로 비쌀 수 있다.

따라서 ARIMA 모델은 시계열 데이터만으로 단기 예측을 위해 쉽고 정확하게 사용될 수 있지만, 각 사용 사례에 대한 최적의 매개 변수 세트를 찾는 데는 약간의 경험과 실험이 필요할 수 있다.