다중 회귀 분석을 수행 중이며 데이터의 특이 값을 삭제할지 확실하지 않습니다. 내가 걱정하는 데이터는 SPSS 상자 그림에서 "원"으로 표시되지만 별표는 없습니다 (그들이 '나쁘지 않다'고 생각하게 만듭니다). 우려되는 사례는 출력의 "casewise diagnostics"표 아래에 표시되므로 이러한 사례를 삭제해야합니까?
다중 회귀 분석을 수행 중이며 데이터의 특이 값을 삭제할지 확실하지 않습니다. 내가 걱정하는 데이터는 SPSS 상자 그림에서 "원"으로 표시되지만 별표는 없습니다 (그들이 '나쁘지 않다'고 생각하게 만듭니다). 우려되는 사례는 출력의 "casewise diagnostics"표 아래에 표시되므로 이러한 사례를 삭제해야합니까?
답변:
특이 치 플래그 지정은 판단 요청 이 아니 어야 합니다 (또는 어쨌든 필요하지 않음). 통계 모델이 주어지면 특이 치는 정확하고 객관적인 정의를 갖습니다 . 대부분 의 데이터 패턴을 따르지 않는 관측치입니다 . 이러한 관측은 대량의 데이터로부터의 거리가 최대 가능성 (또는 실제로 다른 볼록 손실 함수)에 맞는 다변량 모델에 대해 불균형적인 풀을 발휘할 수 있기 때문에 모든 분석의 시작시 구분되어야합니다.
이 지적하는 것이 중요하다 다변량 특이 S 간단히 신뢰성 최소 자승법 (ML 추정 또는 다른 모델, 또는 임의의 다른 볼록 손실 함수)에서 잔차를 이용하여 검출 될 수 없다. 간단히 말해서, 다변량 이상 치는 흔들리지 않는 추정 절차를 사용하여 적합 된 모형에서 잔차를 사용하여 확실하게 탐지 할 수 있습니다.
특이 치가 고전적 적합 잔차에서 두드러 질 것이라는 믿음은 p- 값을 증거의 척도로 해석하거나 편향된 표본에서 모집단에 대한 추론을 도출하는 것과 같은 통계적 논노의 논란이되지 않는 다른 어딘가와 비교할 수없는 것입니다. 아마도 이것보다 훨씬 나이가 많을 수도 있습니다. 가우스 자신 은 시끄러운 관찰 (정상적인 평균과 표준 편차 대신)의 중간 값과 광량과 같은 강력한 추정량을 사용하여 잡음이있는 관측치로부터 정규 분포의 모수를 추정 할 것을 권장했습니다. mad (1)의 일관성 계수를 도출하는 한.
실제 데이터를 기반으로 간단한 시각적 예를 제공하려면 악명 높은 CYG 스타 데이터를 고려하십시오 . 여기서 빨간색 선은 최소 선형 적합, 파란색 선은 강력한 선형 회귀 적합을 사용하여 얻은 것입니다. 여기에서의 견실 한 맞춤은 FastLTS (2) 맞춤이며, 특이 치를 탐지하는 데 사용할 수있는 LS 맞춤의 대안입니다 (추정 된 계수에 대한 모든 관측의 영향이 제한되도록하는 추정 절차를 사용하기 때문에). 그것을 재현하는 R 코드는 다음과 같습니다.
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
흥미롭게도, 왼쪽에있는 4 개의 외부 관측치에는 LS 피팅 및 LS 피팅 잔차의 QQ 플롯 (또는 Cook의 거리 또는 dfbeta)가 문제가 있다고 생각하지 않습니다. 이것은 실제로 표준입니다. 특이 치가 잔차 그림에서 두드러지지 않도록 LS 추정치를 풀기 위해 (샘플 크기에 관계없이) 2 개 이상의 특이 치가 필요하지 않습니다. 이것을 마스킹 효과 라고합니다잘 문서화되어 있습니다. 아마도 CYGstars 데이터 세트에 대해 주목할만한 것은 이변 량이고 (따라서 육안 검사를 사용하여 정확한 결과를 확인할 수 있음) 왼쪽에있는이 네 가지 관측치가 왜 비정상적인 지에 대한 좋은 설명이 실제로 있다는 것입니다.
이것은 작은 규칙과 소수의 변수를 포함하는 작은 파일럿 연구와 통계 분석을 수행하는 사람이 데이터 수집 프로세스에 관여 한 경우를 제외하고는 이전에 대한 신념이 없었던 적이 없었습니다. 특이 치의 정체성은 실제로 사실이었습니다. 그건 그렇고 조용히 쉽게 확인할 수 있습니다. 특이 치 탐지 알고리즘 또는 연구원의 직감을 사용하여 특이 치가 식별되었는지 여부에 관계없이 특이 치는 관측치에 따라 LS 적합치에서 얻은 계수에 대해 비정상적인 레버리지 (또는 '풀')가 있습니다. 즉, 특이 치는 표본에서 제거 할 때 LS 적합에 심각한 영향을 미치는 관측치입니다.
필자는 개인적으로 이것을 경험 한 적이 없지만 문헌에 이상치 탐지 알고리즘에 의해 특이 치로 플래그 된 관측치가 중대한 오류이거나 다른 프로세스에 의해 생성 된 것으로 발견 된 사례가 일부 있습니다. 어쨌든, 어떻게 든 이해하거나 설명 할 수있는 이상치 만 제거하는 것은 과학적으로 보증되거나 현명하지 않습니다. 소량의 관측치가 데이터 본체에서 지금까지 제거되어 통계적 절차의 결과를 단독으로 한 손으로 가져올 수 있다면, 또는 이러한 근거가 다른 근거로 의심되는 것은 아닙니다.
(1) : Stephen M. Stigler, 통계 이력 : 1900 년 이전의 불확실성 측정 참조.
(2) : 대규모 데이터 세트에 대한 LTS 회귀 계산 (2006) PJ Rousseeuw, K. van Driessen.
(3) : 고분해능 다변량 분석법 (2008). 휴 버트 M., Rousseeuw PJ 및 Van Aelst S. 출처 : Statist. 공상 과학 23 권 92 호 ~ 119 호
일반적으로 "이상 값"을 제거하는 것에주의합니다. 비정규 분포 오차, 이분산성을 나타내는 오차 또는 나머지와 "먼"거리에있는 예측 변수 / 독립 변수의 값이있는 경우 회귀 분석을 올바르게 적용 할 수 있습니다. 특이 치의 실제 문제는 다른 모든 데이터 포인트가 따르는 선형 모델을 따르지 않는다는 것입니다. 이것이 사실인지 어떻게 알 수 있습니까? 당신은하지 않습니다.
어떤 것이 든, 당신은 특이 치인 변수의 값을 찾고 싶지 않습니다. 대신 특이 치인 잔차 값을 찾고자합니다. 이 데이터 포인트를보십시오. 변수가 올바르게 기록 되었습니까? 이들이 나머지 데이터와 동일한 모델을 따르지 않을 이유가 있습니까?
물론 이러한 관측치가 이상치 (잔류 진단에 따라)로 나타나는 이유는 모델이 잘못 되었기 때문일 수 있습니다. 나는 우리가 이상 치를 버렸다고해도 행성이 완벽한 원 안에 태양 주위를 맴돌고 있다고 믿는 교수가 있습니다. 케플러는 화성을 버릴 수 있었으며 원형 궤도 이야기는 꽤 좋아 보였을 것입니다. 화성은이 모델이 틀렸다는 주요 통찰력을 제공했으며 행성을 무시하면이 결과를 놓쳤을 것입니다.
특이 치를 제거해도 결과가 크게 변하지 않는다고 언급했습니다. 이는 표본에 대해 제거한 관측치 수가 매우 적거나 모형과 합리적으로 일치하기 때문입니다. 이는 변수 자체가 나머지 변수와 다르게 보일 수 있지만 잔차가 그다지 뛰어나지 않다는 것을 암시합니다. 나는 그들을 비난하고 비평가들에게 몇 가지 요점을 제거하기로 한 나의 결정을 정당화하려고 노력하지 않을 것이다.
@Charlie와 @PeterFlom에 +1; 거기에 좋은 정보가 있습니다. 아마도 나는 그 질문의 전제에 도전함으로써 작은 기여를 할 수있을 것입니다. 상자 그림은 일반적으로 (소프트웨어는 다를 수 있으며, SPSS가 무엇을하고 있는지 나는 확실히 모른다) (아래) 위의 1.5 배 간 분위 범위 '아웃 라이어'와 세 번째 (첫 번째) 분위수보다 라벨 포인트 더. 그러나, 우리는 우리가 찾아 낼 것으로 예상 빈도를 요청할 수 있습니다 적어도 하나의 우리가 모든 지점이 동일한 분포에서 온 있다는 사실을 알고있을 때 이러한 점을? 간단한 시뮬레이션을 통해이 질문에 답할 수 있습니다.
set.seed(999) # this makes the sim reproducable
outVector = vector(length=10000) # to store the results
N = 100 # amount of data per sample
for(i in 1:10000){ # repeating 10k times
X = rnorm(N) # draw normal sample
bp = boxplot(X, plot=FALSE) # make boxplot
outVector[i] = ifelse(length(bp$out)!=0, 1, 0) # if there are 'outliers', 1, else 0
}
mean(outVector) # the % of cases w/ >0 'outliers'
[1] 0.5209
이것이 증명하는 것은 크기가 100 인 샘플에서 이러한 점이 일반적으로 발생할 수 있다는 것입니다 (아무것도없는 경우에도). 마지막 문장 힌트에서 알 수 있듯이 상자 그림 전략을 통해 가짜 '이상 값'을 찾을 확률은 샘플 크기에 따라 다릅니다.
N probability
10 [1] 0.2030
50 [1] 0.3639
100 [1] 0.5209
500 [1] 0.9526
1000 [1] 0.9974
특이 치를 자동으로 식별하는 다른 전략이 있지만 이러한 방법을 사용하면 유효한 포인트를 '이상치'로 잘못 식별하고 때로는 실제 특이 치를 '유효 포인트'로 잘못 식별 할 수 있습니다. (이를 유형 I 및 유형 II 오류 로 생각할 수 있습니다 .)이 문제에 대한 나의 생각은 (가치가있는) 문제의 포인트를 포함 / 제외하는 효과 에 초점을 맞추는 것입니다 . 목표가 예측 인 경우 교차 검증 을 사용 하여 문제의 점을 포함하는 정도가 근사 평균 예측 오차를 증가시키는 지 여부를 결정할 수 있습니다 . 당신의 목표가 설명이라면, 당신은 dfBeta를 볼 수 있습니다(즉, 해당 포인트의 포함 여부에 따라 모델의 베타 추정치가 얼마나 변하는 지 살펴보십시오). 또 다른 관점 (아마도 최선)은 비정상적인 점을 버릴 것인지 선택 하지 않고 강력한 분석을 대신 사용하는 것입니다.
먼저 잔차 그림을 살펴보아야합니다. 정규 분포를 따르는가? 그들은이 분산의 징후를 보입니까? 다른 음모도 살펴보십시오 (SPSS를 사용하지 않으므로 해당 프로그램 에서이 작업을 수행하는 방법이나보고있는 상자 그림을 정확하게 말할 수는 없지만 별표가 "나쁘지 않다"는 의미는 상상하기 어렵습니다. 이것들은 일부 기준에 의해 매우 특이한 점입니다).
그런 다음 특이 치가있는 경우 해당 특이 치를보고 이유를 알아 봅니다.
그런 다음 특이 값 유무에 관계없이 회귀를 시도 할 수 있습니다. 결과가 비슷하면 삶이 좋습니다. 각주와 함께 전체 결과를보고하십시오. 비슷하지 않은 경우 두 회귀를 모두 설명해야합니다.