스무딩-사용시기와 사용하지 않을시기


18

윌리엄 브릭스 (William Briggs)의 블로그 에는 데이터 스무딩의 함정을 분석하고 그 스무딩 된 데이터를 분석에 전달 하는 오래된 게시물이 있습니다 . 핵심 주장은 다음과 같습니다.

광기의 순간에 시계열 데이터를 매끄럽게하고 다른 분석의 입력으로 사용하면 자신을 속일 확률이 크게 높아집니다! 평활화는 다른 분석 방법에 실제로 나타나는 신호 인 가짜 신호를 유도하기 때문입니다. 최종 결과에 대해 너무 확신 할 수 있습니다!

그러나 나는 언제 부드럽게해야하는지 아닌지에 대한 포괄적 인 토론을 찾기 위해 고심하고 있습니다.

스무딩 된 데이터를 다른 분석에 대한 입력으로 사용할 때 스무딩에만 찌그러 지거나 스무딩이 권장되지 않는 다른 상황이 있습니까? 반대로, 스무딩이 권장되는 상황이 있습니까?


1
시계열 분석의 대부분의 응용은 설명되어 있지 않더라도 일종의 스무딩입니다. 평활화는 탐색 또는 요약 장치 (일부 필드에서 주 또는 유일하게 사용되는 방법 임) 또는 일부 목적으로 귀찮거나 2 차 관심사로 간주되는 기능을 제거하는 데 사용할 수 있습니다.
닉 콕스

4
면책 조항 : 인용 된 전체 블로그 게시물을 읽지 않았습니다. 초급 오타 ( "times series", "Monte Carol")를 지나칠 수 없었고 그 톤과 스타일은 매력적이지 않았습니다. 그러나 나는 다른 사람의 블로그를 통해 시계열 분석의 원칙이나 통계를 배우려고 노력하지 않는 것이 좋습니다.
닉 콕스

@NickCox 동의, 특히 그라인딩 할 도끼가있는 블로그에는 없습니다.
Hong Ooi

@HongOoi 네! 내 의견 초안에서 블로그 자체보다 의견이 많지 않은 선택 문구를 삭제했습니다.
닉 콕스

1
브릭스가 쓴 소금 한 덩어리로 모든 것을 가져갈 것입니다.
Momo

답변:


16

지수 평활 은 원인이 아닌 시계열 예측에 사용되는 고전적인 기술입니다. 간단한 예측 에만 사용하고 다른 데이터 마이닝 또는 통계 알고리즘에 대한 입력으로 표본 내 평활 피팅 을 사용하지 않는 한 Briggs의 비판은 적용되지 않습니다. (따라서 Wikipedia가 말한 것처럼 "프레젠테이션을 위해 스무딩 된 데이터를 생성하기 위해"사용하는 것에 대해 회의적입니다.

다음은 지수 평활에 대한 교과서 소개입니다.

그리고 여기 (10 살이지만 여전히 관련이있는) 리뷰 기사가 있습니다.


편집 :있을 것 같습니다 어떤 의심의 여지 가능 브릭스 '비판의 타당성에 대한 약간의 포장에 의해 영향을 . 브릭스의 말투가 거칠 수 있다는 것에 전적으로 동의합니다. 그러나 나는 왜 그가 요점이 있다고 생각하는지 설명하고 싶습니다.

아래에서는 10,000 개의 시계열 쌍을 각각 100 개의 관측 값으로 시뮬레이션합니다. 모든 계열은 화이트 노이즈이며 상관 관계가 없습니다. 따라서 표준 상관 테스트를 실행하면 [0,1]에 균일하게 분포 된 p 값이 산출됩니다. 그렇듯이 (왼쪽의 히스토그램).

그러나 먼저 각 계열을 매끄럽게 하고 평활화 된 데이터에 상관 검정을 적용한다고 가정 합니다. 데이터에서 많은 변동성을 제거했기 때문에 너무 작은 p 값을 얻 습니다 . 우리의 상관 관계 테스트는 크게 편향되어 있습니다. 따라서 우리는 브릭스가 말한 원본 시리즈 사이의 연관성을 너무 확신 할 것입니다.

문제는 평활화 데이터를 예측에 사용하는지, 어떤 경우 평활화가 유효한지, 또는 분석 알고리즘 의 입력으로 데이터를 포함시키는 지 여부에 달려 있습니다. 입력 데이터에 대한이 불확실한 확실성은 최종 결과를 통과하고 설명되어야하며, 그렇지 않으면 모든 추론이 너무 확실합니다. 물론 예측에 "확대 된 확실성"을 기반으로하는 모델을 사용하면 예측 간격이 너무 작아집니다.

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p 값


1
나는 원시 데이터가 표시되지 않고 매끄러운 것이 표시되지 않는 좋은 시계열 분석을 위해 공리로 사용합니다.
닉 콕스

1

모델링 분석에 평활화가 부적절하다고 주장하면 그렇지 않은 경우보다 평균 제곱 오차가 더 높은 것으로 판단됩니다. 평균 제곱 오류 또는 MSE는``바이어스 ''라는 값의 제곱, 분산 및 일부 돌이킬 수없는 오류의 세 가지 용어로 분해 될 수 있습니다. (아래 인용에 표시되어 있습니다.) 지나치게 평활화 된 모델은 분산이 낮더라도 바이어스가 높고, 너무 거친 모델은 분산이 높고 바이어스가 낮습니다.

이것에 대해서는 전혀 철학적 인 것이 없습니다. 수학적 특성입니다. 노이즈의 특성이나 시스템의 특성에 의존하지 않습니다.

보다:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (이것은 분해의 파생입니다.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei는 다른 방식으로 동일하게 수행하며 예측하려고 할 때 발생하는 결과를 가져옵니다.)

고전 통계는 거의 항상 편견없는 추정을 주장했다. 1955 년 스탠포드의 통계 학자 찰스 스타 인 (Charles Stein)은 중요한 특수 사례, 특히 JAMES-STEIN ESTIMATORS라고 불리는 MSE가 낮은 편견없는 추정값의 조합이 있음을 보여주었습니다. 브래들리 에프론 (Bradley Efron)은이 혁명에 대해 매우 통찰력있는 텍스트를 썼습니다 : http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.