지수 평활 은 원인이 아닌 시계열 예측에 사용되는 고전적인 기술입니다. 간단한 예측 에만 사용하고 다른 데이터 마이닝 또는 통계 알고리즘에 대한 입력으로 표본 내 평활 피팅 을 사용하지 않는 한 Briggs의 비판은 적용되지 않습니다. (따라서 Wikipedia가 말한 것처럼 "프레젠테이션을 위해 스무딩 된 데이터를 생성하기 위해"사용하는 것에 대해 회의적입니다.
다음은 지수 평활에 대한 교과서 소개입니다.
그리고 여기 (10 살이지만 여전히 관련이있는) 리뷰 기사가 있습니다.
편집 :있을 것 같습니다 어떤 의심의 여지 가능 브릭스 '비판의 타당성에 대한 약간의 포장에 의해 영향을 . 브릭스의 말투가 거칠 수 있다는 것에 전적으로 동의합니다. 그러나 나는 왜 그가 요점이 있다고 생각하는지 설명하고 싶습니다.
아래에서는 10,000 개의 시계열 쌍을 각각 100 개의 관측 값으로 시뮬레이션합니다. 모든 계열은 화이트 노이즈이며 상관 관계가 없습니다. 따라서 표준 상관 테스트를 실행하면 [0,1]에 균일하게 분포 된 p 값이 산출됩니다. 그렇듯이 (왼쪽의 히스토그램).
그러나 먼저 각 계열을 매끄럽게 하고 평활화 된 데이터에 상관 검정을 적용한다고 가정 합니다. 데이터에서 많은 변동성을 제거했기 때문에 너무 작은 p 값을 얻 습니다 . 우리의 상관 관계 테스트는 크게 편향되어 있습니다. 따라서 우리는 브릭스가 말한 원본 시리즈 사이의 연관성을 너무 확신 할 것입니다.
문제는 평활화 데이터를 예측에 사용하는지, 어떤 경우 평활화가 유효한지, 또는 분석 알고리즘 의 입력으로 데이터를 포함시키는 지 여부에 달려 있습니다. 입력 데이터에 대한이 불확실한 확실성은 최종 결과를 통과하고 설명되어야하며, 그렇지 않으면 모든 추론이 너무 확실합니다. 물론 예측에 "확대 된 확실성"을 기반으로하는 모델을 사용하면 예측 간격이 너무 작아집니다.
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")