ARIMA 모델을 피팅하기 전에 시계열을 로그 변환하는시기


26

이전에 예측 프로 를 사용 하여 일 변량 시계열을 예측했지만 워크 플로를 R로 전환하고 있습니다. R에 대한 예측 패키지에는 유용한 기능이 많이 포함되어 있지만 자동으로 실행하기 전에 데이터 변환이 필요하지 않습니다. .arima (). 경우에 따라 예측 전문가는 예측을 수행하기 전에 변환 데이터를 로그하기로 결정하지만 아직 이유를 찾지 못했습니다.

그래서 내 질문은 : ARIMA 방법을 시도하기 전에 시계열을 언제 로그 변환해야합니까?

/ 편집 : 답변을 읽은 후 다음과 같이 사용할 것입니다. 여기서 x는 내 시계열입니다.

library(lmtest)
if ((gqtest(x~1)$p.value < 0.10) {
    x<-log(x)
}

이게 말이 되요?

답변:


21

계속하기 전에 몇 가지주의 사항이 있습니다. 학생들에게 종종 제안하는 auto.arima()것처럼, 최종 결과에 대한 첫 번째 근사치로 또는 경쟁 이론 기반 모델이 더 나은지 확인할 때 parsimonious 모델을 원할 경우에만 물건을 사용 하십시오.

데이터

작업중인 시계열 데이터에 대한 설명부터 시작해야합니다. 집계 데이터, 기하 평균으로는 일반적으로 작업 거시 경제학에서 (놀랍게도) 대부분이로 분해 아마 때문에, 매크로 시계열 데이터에 대한 경험적 증거가 기하 급수적으로 증가 추세 .

그런데 Rob의 제안은 "시각적으로"시계열에 대해 명확한 계절적 부분 으로 작동합니다. 느리게 변화하는 연간 데이터는 변화의 증가에 대해 명확하지 않기 때문입니다. 운 좋게도 기하 급수적으로 증가하는 추세가 일반적으로 보입니다 (로그가 필요없는 것보다 선형 인 것 같습니다).

모델

와이()=엑스1α1()...엑스케이α케이()ε()

금융 계량 경제학에서 로그는 로그 리턴의 인기로 인해 일반적입니다.

로그 변환에는 좋은 속성이 있습니다

α나는와이()엑스나는()

오류 수정 모델에서 비율이 절대 차이보다 더 안정적 ( 고정적 ) 이라는 경험적으로 더 강한 가정이 있습니다.

금융 계량 경제학에서는 시간이 지남에 따라 로그 수익률을 쉽게 집계 할 수 있습니다.

여기에 언급되지 않은 다른 많은 이유가 있습니다.

마지막으로

로그 변환은 일반적으로 음이 아닌 (수준) 변수에 적용됩니다. 두 시계열 (예 : 순 내보내기)의 차이를 관찰하면 로그를 가져 오는 것도 불가능합니다. 원래 데이터를 레벨로 검색하거나 빼는 일반적인 추세의 형태를 가정해야합니다.

[ 편집 후 추가 ] 언제 로그 변환을 수행 해야하는지에 대한 통계적 기준 을 원한다면 간단한 솔루션이 이분산성 테스트 일 것입니다. 분산이 증가하는 경우 Goldfeld-Quandt Test 또는 이와 유사한 것을 권장 합니다. R에서 그것은 위치하며 기능 library(lmtest)으로 표시됩니다 gqtest(y~1). 회귀 모형이없는 경우 절편 항에서 간단히 회귀하면 y종속 변수입니다.


정보에 대해서 감사드립니다. GQ 테스트에서 p 값이 낮을수록 분포가이 분산 일 가능성이 더 큽니까?
Zach

@Zach : 물론 데이터 마이닝을 계획하지 않을 경우 정확히 5 %를 사용하십시오. 나는 개인적으로 모델 가정에서 시작합니다.
Dmitrij Celov

@Dmitrij. 고맙습니다. 출력을 올바르게 해석하고 있는지 확인하고 싶습니다.
Zach

29

시간에 대한 데이터 그래프를 플로팅합니다. 계열 수준에 따라 변형이 증가하는 것처럼 보이는 경우 로그를 가져옵니다. 그렇지 않으면 원래 데이터를 모델링하십시오.


3
다음과 같은 질문이 있습니다. 로그를 가져 와서 요청하지 않으면 어떤 영향이 있습니까? 나는 로그 변환이 필요한 시계열로 작업 할 때 그것을 좋아했습니다. 왜냐하면 계수는 비율이며 작은 값에서 거의 백분율이기 때문입니다. (예 : exp (0.05) = 1.051.)
Wayne

4

그들의 열매로 너희는 그들을 알 것이다

테스트 할 가정은 모델의 오차가 일정하게 분산되어 있다는 것입니다. 이는 가정 된 모델의 오류를 의미하지는 않습니다. 간단한 그래픽 분석을 사용할 때는 기본적으로 선형 모델을 시간으로 가정합니다.

따라서 시간에 따른 일시적인 데이터 플롯에서 제안 할 수있는 부적절한 모델이있는 경우 전력 변환의 필요성에 대해 잘못 결론을 내릴 수 있습니다. Box와 Jenkins는 항공사 데이터 예제를 통해 그렇게했습니다. 그들은 가장 최근의 데이터에서 3 가지의 비정상적인 값을 설명하지 않았기 때문에 계열의 최고 수준에서 잔차의 변동이 더 크다고 잘못 결론지었습니다.

이 주제에 대한 자세한 내용은 http://www.autobox.com/pdfs/vegas_ibf_09a.pdf 를 참조하십시오 .


1

시리즈가 자연스럽게 기하학적이거나 투자의 시간 가치가 긍정적 인 수익률을 갖는 최소 위험 채권과 비교할 것을 암시하는 시리즈를 로그 변환 할 수 있습니다. 이를 통해 "선형화"가 가능 해져서 단순한 차이 재귀 관계에 적합합니다.


1
변형은 마약과 같습니다. 어떤 것은 당신에게 좋고 어떤 것은 그렇지 않습니다. tou가 통계적 가설 테스트에 관심이 없다면 원하는 것을 가정 할 수 있습니다. 가설에 대한 모수 적 검정은 오류 가격에 대한 가정을 가지고 있으며 위험에 따라 무시합니다.
IrishStat

1
그렇습니다. 프로세스는 기하학적이어야한다고 말했습니다. 변환에 실패하면 추론 오류도 발생할 수 있습니다. 유효한 추론의 조건에 관한 가정을 무시할 것을 제안한 곳을 알 수 없습니다.
DWin

1
stats.stackexchange.com/questions/6498/… 에는 언제, 왜 변환 해야하는지에 대한 토론이 포함되었습니다. 원래의 건조가 "형상"이라는 "사실"은 적절한 모형의 잔차가 평균에 비례하는 표준 편차를 가지고 있다고 추론하지 않습니다. 그러나 경험적으로 입증되거나 최소한 테스트되어야 할 수도 있습니다.
IrishStat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.