R의 ARIMA 잔차에 대한 Ljung-Box 통계 : 혼란스러운 테스트 결과


15

계절 ARIMA (0,0,0) (0,1,0) [12] 모델 (= fit2)을 사용하여 예측하려고하는 시계열이 있습니다. R이 auto.arima로 제안한 것과는 다릅니다 (R 계산 된 ARIMA (0,1,1) (0,1,0) [12]가 더 적합 할 것입니다. 그러나 내 시계열의 지난 12 개월 동안 내 모델 (fit2)이 조정될 때 더 잘 맞는 것 같습니다 (만성적으로 편향된 경우, 잔차 평균을 추가했으며 새 맞춤은 원래 시계열에 대해 더 편안하게 앉아있는 것 같습니다. 다음은 두 적합치에 대한 지난 12 개월 및 최근 12 개월 동안의 MAPE의 예입니다.

fit1, fit2 및 원본 데이터

시계열은 다음과 같습니다.

원래 시계열

여태까지는 그런대로 잘됐다. 두 모델 모두에 대한 잔차 분석을 수행했으며 여기에 혼란이 있습니다.

acf (resid (fit1))는 훌륭하고 매우 하얀 소음으로 보입니다.

fit1의 acf

그러나 Ljung-Box 테스트는 예를 들어 20 지연에 적합하지 않습니다.

    Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)

다음과 같은 결과가 나타납니다.

    X-squared = 26.8511, df = 19, p-value = 0.1082

필자가 이해하기에 이것은 잔차가 독립적이지 않다는 확인입니다 (p- 값이 너무 커서 독립 가설을 유지하기에 너무 큽니다).

그러나 지연 1의 경우 모든 것이 훌륭합니다.

    Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)

나에게 결과를 준다 :

    X-squared = 0.3512, df = 0, p-value < 2.2e-16

테스트를 이해하지 못하거나 acf 플롯에서 보는 것과 약간 모순됩니다. 자기 상관은 웃기게 낮습니다.

그런 다음 fit2를 확인했습니다. 자기 상관 함수는 다음과 같습니다.

acf fit2

몇 번의 첫 지연에서 명백한 자기 상관에도 불구하고 Ljung-Box 테스트는 20 개 지연에서 fit1보다 훨씬 더 나은 결과를 얻었습니다.

    Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)

결과 :

    X-squared = 147.4062, df = 20, p-value < 2.2e-16

lag1에서 자기 상관을 확인하는 것만으로도 귀무 가설을 확인할 수 있습니다!

    Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
    X-squared = 30.8958, df = 1, p-value = 2.723e-08 

시험을 올바르게 이해하고 있습니까? 잔차 독립의 귀무 가설을 확인하기 위해 p- 값은 0.05보다 작은 것이 바람직합니다. 예측에 적합한 fit1 또는 fit2 중 어느 것이 더 적합합니까?

추가 정보 : fit1의 잔차는 정규 분포를 표시하지만 fit2의 잔차는 표시되지 않습니다.


2
p- 값을 이해하지 못하고 잘못된 방식으로 해석하고 있습니다.
Scortchi-Monica Monica 복원

그렇습니다, 그것은 이해의 문제 일 수 있습니다. 확장 해 주시겠습니까? 예를 들어, p- 값이 0.5보다 큰 경우 정확히 무엇을 의미합니까? 나는 p- 값의 정의를 읽었습니다 (널 귀무 가설이 유지되는 경우 적어도 통계량을 테스트 통계만큼 극단적으로 얻을 가능성). Ljung-Box 테스트에 어떻게 적용됩니까? "최소한 극단"이 "X 제곱보다 큼"을 의미합니까? 중요성 테스트가 이해하기 어려웠 기 때문에 내 데이터로 예제를 주셔서 감사합니다.
zima

6
Ljung-Box 검정 통계량 ( X-squared)은 잔차의 표본 자동 상관이 커질수록 커지고 (정의 참조), p- 값은 null에서 관측 된 것보다 크거나 큰 값을 얻을 확률입니다. 진정한 혁신은 독립적이라는 가설. 따라서 작은 p- 값은 독립 에 대한 증거 입니다.
Scortchi-Monica Monica 복원

@Scortchi, 알았어요. 그러나 그것은 또한 fit1에 대한 lag = 1에서의 테스트를 실패하게 만듭니다. 이것을 어떻게 설명 할 수 있습니까? lag = 1에서 자기 상관이 보이지 않습니다. 적은 수의 지연 (매우 작은 샘플)으로이 테스트에 어떤 종류의 말단이 있습니까?
zima

3
Box-Ljung은 사용자가 지정한 것까지 지연에 대한 옴니버스 독립성 테스트입니다. 사용 된 자유도는 아니오입니다. 지연에서 마이너스를 뺀 값입니다. AR & MA 모수 ( fitdf)이므로 자유도가 0 인 카이 제곱 분포에 대해 테스트했습니다.
Scortchi-Monica Monica 복원

답변:


34

테스트를 잘못 해석했습니다. p 값이 0.05보다 크면 잔차가 독립적이므로 모형이 정확해야합니다. 아래 코드를 사용하여 화이트 노이즈 시계열을 시뮬레이션하고 동일한 테스트를 사용하면 p 값이 0.05보다 큽니다.

m = c(ar, ma)
w = arima.sim(m, 120)
w = ts(w)
plot(w)
Box.test(w, type="Ljung-Box")

3
짧고 깔끔한 설명. 코드 예제의 경우 +1
Dawny33

1
귀하의 해석도 정확하지 않습니다. p- 값이 0.05이면 사건의 순서 1까지 자동 상관이 없다는 귀무 가설을 기각하면 5 %의 확률로 오류가 발생할 수 있습니다.
DJJ

8

귀무 가설을 기각하기 위해 많은 통계 테스트가 사용됩니다. 이 특정 경우 Ljung-Box 테스트는 일부 값의 독립성을 거부하려고 시도합니다. 무슨 뜻인가요?

  • 만약 p 값이 <0.05 1 : 당신은 실수의 5 %의 확률로 가정 귀무 가설을 거부 할 수 있습니다. 따라서 귀하의 가치가 서로에 대한 의존성을 보이고 있다고 가정 할 수 있습니다.

  • 만약 p 값이> 0.05 1 : 당신은 귀무 가설을 거부 할 수있는 충분한 통계적 증거가 없습니다. 따라서 값이 종속적이라고 가정 할 수 없습니다. 이것은 귀하의 가치가 어쨌든 의존적이거나 귀하의 가치가 독립적이라는 것을 의미 할 수 있습니다. 그러나 당신은 어떤 특정한 가능성을 증명하고 있지 않습니다. 테스트에서 실제로 말한 것은 값의 의존성을 주장 할 수 없으며 값의 독립성을 주장 할 수도 없다는 것입니다.

일반적으로 여기서 p- 값 <0.05는 귀무 가설을 기각 할 수 있지만 p- 값> 0.05는 귀무 가설을 확인할 수 없다는 점을 명심해야합니다 .

특히 Ljung-Box 테스트를 사용하여 시계열 값의 독립성을 증명할 수 없습니다. 의존성을 증명할 수 있습니다.


α=0.05


두 번째 요점에 대해 혼란스러워 죄송합니다 (p> 0.05). p> 0.05 일 때α=0.05) 독립성에 대한 귀무 가설을 기각 할 수 없습니다. 그러나 당신은 "하지만 당신은 어떤 가능성을 증명하고 있지 않습니다, 당신은 두 가지 가능성이 여전히 기회라는 것을 증명했습니다." 더 잘 설명 할 수 있습니까?
utobi

0

ACF 그래프에 따르면, 지연 k (k> 1)에서의 상관 계수가 급격히 떨어지고 0에 가깝기 때문에 적합도 1이 더 낫다는 것이 명백합니다.


0

ACF로 판단하는 경우 적합 1이 더 적합합니다. Ljung 테스트에서 혼동되는 대신 여전히 잔차의 코렐로 그램을 사용하여 fit1과 fit2 사이에 가장 잘 맞는지를 확인할 수 있습니다


1
이 답변을 이해하지 못합니다.
Michael R. Chernick

Ljung 상자 통계를 방문하면 모델 진단 검사 즉, 모델 적합성에 관심이있을 수 있습니다 ... 사용이 혼동되는 경우 위에 언급 한 모델 적합성을 확인하는 다른 방법이 있습니다. 데이터 잔차의 상관 관계 Ie, ACF 및 PACF를 플로팅 한 다음 계열이 화이트 노이즈 인 경우 계열의 경계를 확인할 수 있습니다. Ljung box test
Vincent
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.