다중 회귀 분석을 수행 할 때 통계 소프트웨어에서 특이 치로 플래그가 지정된 사례를 삭제할지 여부


23

다중 회귀 분석을 수행 중이며 데이터의 특이 값을 삭제할지 확실하지 않습니다. 내가 걱정하는 데이터는 SPSS 상자 그림에서 "원"으로 표시되지만 별표는 없습니다 (그들이 '나쁘지 않다'고 생각하게 만듭니다). 우려되는 사례는 출력의 "casewise diagnostics"표 아래에 표시되므로 이러한 사례를 삭제해야합니까?


Charlie와 Epigrad에게 대단히 감사합니다. SPSS에서 잔차에 특이 치가 있는지 여부를 평가하기 위해 살펴볼 그래프를 제안 해 주시겠습니까? 산점도는 매우 지저분 해 보입니다! 나는 데이터에 아무런 문제가 없다 (그들이 잘못 입력되지 않은 것처럼) 나는 내 참가자 중 일부가 내 척도 중 일부에서 훨씬 높은 점수를 받았다고 생각한다. 나머지 샘플.
Anon

3
x 축에 y의 예상 값 (추정 한 모델에 따라 주어진 값)과 y 축에 잔차를 플로팅해야합니다. 예측 된 y 값 대신 x 축에 예측 변수 / 독립 변수 중 하나를 배치 할 수 있습니다. x 축에 다른 예측 변수가있는 여러 도표를 만들어 어떤 x 값이 특이 치 동작을 일으키는 지 확인할 수 있습니다. 다시 말하지만, 이상치 제거에주의해야합니다. 대신 특이 치가 발생하는 이유를 분석하십시오.
찰리

1
Charlie의 진술을 반박하는 것은 "if"가 아니라 "why"가 중요하며, 나는 그들의 제거에 대해서도주의를 기울일 것입니다. SPSS에 익숙하지는 않지만 회귀를 실행하는 데 사용한 모든 기능은 잔차 그림이나 최소한 Charlie가 제안하는 그림을 만드는 데 사용할 수있는 잔차 그림을 제공 할 수 있어야합니다.
Fomite

@Anon 두 계정을 병합했습니다. 질문을 업데이트하거나 주석을 달 수 있도록 등록하십시오.
chl

3
@ user603 아니요, 당신은 나를 제대로 읽지 못합니다. "Outlier"는 특히 통계 소프트웨어의 자동 절차에 의해 플래그가 지정된 경우 아무 의미가 없습니다. 연구의 중요한 발견에 대한 많은 예가 "이상 점"에 있습니다. 삭제하는 데이터가있을 때마다 이유가 있습니다. "그들은 불편하다"는 이유가 아니다.
Fomite 2019

답변:


25

특이 치 플래그 지정은 판단 요청 이 아니 어야 합니다 (또는 어쨌든 필요하지 않음). 통계 모델이 주어지면 특이 치는 정확하고 객관적인 정의를 갖습니다 . 대부분 의 데이터 패턴을 따르지 않는 관측치입니다 . 이러한 관측은 대량의 데이터로부터의 거리가 최대 가능성 (또는 실제로 다른 볼록 손실 함수)에 맞는 다변량 모델에 대해 불균형적인 풀을 발휘할 수 있기 때문에 모든 분석의 시작시 구분되어야합니다.

이 지적하는 것이 중요하다 다변량 특이 S 간단히 신뢰성 최소 자승법 (ML 추정 또는 다른 모델, 또는 임의의 다른 볼록 손실 함수)에서 잔차를 이용하여 검출 될 수 없다. 간단히 말해서, 다변량 이상 치는 흔들리지 않는 추정 절차를 사용하여 적합 된 모형에서 잔차를 사용하여 확실하게 탐지 할 수 있습니다.

특이 치가 고전적 적합 잔차에서 두드러 질 것이라는 믿음은 p- 값을 증거의 척도로 해석하거나 편향된 표본에서 모집단에 대한 추론을 도출하는 것과 같은 통계적 논노의 논란이되지 않는 다른 어딘가와 비교할 수없는 것입니다. 아마도 이것보다 훨씬 나이가 많을 수도 있습니다. 가우스 자신 은 시끄러운 관찰 (정상적인 평균과 표준 편차 대신)의 중간 값과 광량과 같은 강력한 추정량을 사용하여 잡음이있는 관측치로부터 정규 분포의 모수를 추정 할 것을 권장했습니다. mad (1)의 일관성 계수를 도출하는 한.

실제 데이터를 기반으로 간단한 시각적 예를 제공하려면 악명 높은 CYG 스타 데이터를 고려하십시오 . 여기서 빨간색 선은 최소 선형 적합, 파란색 선은 강력한 선형 회귀 적합을 사용하여 얻은 것입니다. 여기에서의 견실 한 맞춤은 FastLTS (2) 맞춤이며, 특이 치를 탐지하는 데 사용할 수있는 LS 맞춤의 대안입니다 (추정 된 계수에 대한 모든 관측의 영향이 제한되도록하는 추정 절차를 사용하기 때문에). 그것을 재현하는 R 코드는 다음과 같습니다.

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

starsCYG 데이터

흥미롭게도, 왼쪽에있는 4 개의 외부 관측치에는 LS 피팅 및 LS 피팅 잔차의 QQ 플롯 (또는 Cook의 거리 또는 dfbeta)가 문제가 있다고 생각하지 않습니다. 이것은 실제로 표준입니다. 특이 치가 잔차 그림에서 두드러지지 않도록 LS 추정치를 풀기 위해 (샘플 크기에 관계없이) 2 개 이상의 특이 치가 필요하지 않습니다. 이것을 마스킹 효과 라고합니다잘 문서화되어 있습니다. 아마도 CYGstars 데이터 세트에 대해 주목할만한 것은 이변 량이고 (따라서 육안 검사를 사용하여 정확한 결과를 확인할 수 있음) 왼쪽에있는이 네 가지 관측치가 왜 비정상적인 지에 대한 좋은 설명이 실제로 있다는 것입니다.

이것은 작은 규칙과 소수의 변수를 포함하는 작은 파일럿 연구와 통계 분석을 수행하는 사람이 데이터 수집 프로세스에 관여 한 경우를 제외하고는 이전에 대한 신념이 없었던 적이 없었습니다. 특이 치의 정체성은 실제로 사실이었습니다. 그건 그렇고 조용히 쉽게 확인할 수 있습니다. 특이 치 탐지 알고리즘 또는 연구원의 직감을 사용하여 특이 치가 식별되었는지 여부에 관계없이 특이 치는 관측치에 따라 LS 적합치에서 얻은 계수에 대해 비정상적인 레버리지 (또는 '풀')가 있습니다. 즉, 특이 치는 표본에서 제거 할 때 LS 적합에 심각한 영향을 미치는 관측치입니다.

필자는 개인적으로 이것을 경험 한 적이 없지만 문헌에 이상치 탐지 알고리즘에 의해 특이 치로 플래그 된 관측치가 중대한 오류이거나 다른 프로세스에 의해 생성 된 것으로 발견 된 사례가 일부 있습니다. 어쨌든, 어떻게 든 이해하거나 설명 할 수있는 이상치 만 제거하는 것은 과학적으로 보증되거나 현명하지 않습니다. 소량의 관측치가 데이터 본체에서 지금까지 제거되어 통계적 절차의 결과를 단독으로 한 손으로 가져올 수 있다면, 또는 이러한 근거가 다른 근거로 의심되는 것은 아닙니다.

(1) : Stephen M. Stigler, 통계 이력 : 1900 년 이전의 불확실성 측정 참조.

(2) : 대규모 데이터 세트에 대한 LTS 회귀 계산 (2006) PJ Rousseeuw, K. van Driessen.

(3) : 고분해능 다변량 분석법 (2008). 휴 버트 M., Rousseeuw PJ 및 Van Aelst S. 출처 : Statist. 공상 과학 23 권 92 호 ~ 119 호


6
이것은 좋은 것입니다 (+1). 그러나 나는 당신이 전통적인 용어를 잘못 사용하고 "영향 관찰"을 언급하기 위해 "이상적"을 선택했다고 생각합니다. 개념은 모두 가치가 있으며, 후자는 잘 다루지 만, 당신이 나타내는 것처럼 상호 교환 할 수는 없습니다. 예를 들어, 영향력 관측 이다 데이터의 대부분과 일치 당신의 특성 "비정상적인 영향력을 가지고 관찰 (또는 '풀')는 LS에서 얻은 계수에 맞게을 통해"을 맞는 것입니다하지만 대부분의 작가에 의해 간주되지 않을 것이다 "outlier" 그 자체가됩니다.
whuber

2
@ whuber : 좋은 지적입니다. 실제로, 최근의 강력한 통계 (예 : 강력한 통계 : 이론 및 방법. Wiley)에 대한 최근의 교과서에서와 같이 그러한 관측 ( '좋은 레버리지 포인트'라고도 함)은 유해한 것으로 간주합니다. 정당한 이유는 이들이 추정 된 계수의 표준 오차를 수축시켜 사용자가 관찰 된 관계의 강도에 대한 불신의 확신을 갖게한다는 것입니다. 이상치 좋은 활용 점을 고려하면 형식적인 접근 방식은 일관성있게 모든 좋은 활용 포인트 이후의 자체되는에 특대 영향이 있습니까 있습니다 LS / ML 적합의 구성 요소를.
user603

3
+1 아주 좋은 예입니다. 거의 직교하는 2 개의 피팅을 나타내고 왼쪽 위의 영향력이 큰 4 개가 OLS 피팅 후 최대 잔차를 갖지 않는 실제 데이터입니다.
Wayne

19

일반적으로 "이상 값"을 제거하는 것에주의합니다. 비정규 분포 오차, 이분산성을 나타내는 오차 또는 나머지와 "먼"거리에있는 예측 변수 / 독립 변수의 값이있는 경우 회귀 분석을 올바르게 적용 할 수 있습니다. 특이 치의 실제 문제는 다른 모든 데이터 포인트가 따르는 선형 모델을 따르지 않는다는 것입니다. 이것이 사실인지 어떻게 알 수 있습니까? 당신은하지 않습니다.

어떤 것이 든, 당신은 특이 치인 변수의 값을 찾고 싶지 않습니다. 대신 특이 치인 잔차 값을 찾고자합니다. 이 데이터 포인트를보십시오. 변수가 올바르게 기록 되었습니까? 이들이 나머지 데이터와 동일한 모델을 따르지 않을 이유가 있습니까?

물론 이러한 관측치가 이상치 (잔류 진단에 따라)로 나타나는 이유는 모델이 잘못 되었기 때문일 수 있습니다. 나는 우리가 이상 치를 버렸다고해도 행성이 완벽한 원 안에 태양 주위를 맴돌고 있다고 믿는 교수가 있습니다. 케플러는 화성을 버릴 수 있었으며 원형 궤도 이야기는 꽤 좋아 보였을 것입니다. 화성은이 모델이 틀렸다는 주요 통찰력을 제공했으며 행성을 무시하면이 결과를 놓쳤을 것입니다.

특이 치를 제거해도 결과가 크게 변하지 않는다고 언급했습니다. 이는 표본에 대해 제거한 관측치 수가 매우 적거나 모형과 합리적으로 일치하기 때문입니다. 이는 변수 자체가 나머지 변수와 다르게 보일 수 있지만 잔차가 그다지 뛰어나지 않다는 것을 암시합니다. 나는 그들을 비난하고 비평가들에게 몇 가지 요점을 제거하기로 한 나의 결정을 정당화하려고 노력하지 않을 것이다.


6
+1 특이 치 때문에 데이터를 버리지 마십시오. 일부 데이터가 외부에 있는지 알아보십시오 .
Fomite

2
이것은 끔찍한 조언입니다. 특이 치가 나머지 데이터에서 너무 멀리 떨어져있어 잔류 플롯에서 눈에 띄지 않는 방식으로 회귀선을 당기는 것이 매우 일반적입니다. 데이터 포인트). 사실, 특이 치가 하나 이상이면 고전 회귀 분석의 잔차 그림을 사용하여 확실하게 검출 할 수 없음을 알 수 있습니다. 이것을 마스킹 효과 라고하며 많은 실제 데이터 예제에서 잘 설명되어 있습니다.
user603

그건 그렇고, 이것이 화성 예제를 사용하지 않는 이유이기도합니다. 단일 특이 치를 처리하는 경우에만 작동하는 절차를 보여줍니다. 대부분의 응용 프로그램에는 그러한 보증이 없습니다. 그것은 일반적으로 결함이있는 방법론에 대한 잘못된 자신감을 제공합니다 (통계 학자로서 우리가 막기 위해 번성해야하는 것입니다).
user603

15

@Charlie와 @PeterFlom에 +1; 거기에 좋은 정보가 있습니다. 아마도 나는 그 질문의 전제에 도전함으로써 작은 기여를 할 수있을 것입니다. 상자 그림은 일반적으로 (소프트웨어는 다를 수 있으며, SPSS가 무엇을하고 있는지 나는 확실히 모른다) (아래) 위의 1.5 배 간 분위 범위 '아웃 라이어'와 세 번째 (첫 번째) 분위수보다 라벨 포인트 더. 그러나, 우리는 우리가 찾아 낼 것으로 예상 빈도를 요청할 수 있습니다 적어도 하나의 우리가 모든 지점이 동일한 분포에서 온 있다는 사실을 알고있을 때 이러한 점을? 간단한 시뮬레이션을 통해이 질문에 답할 수 있습니다.

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

이것이 증명하는 것은 크기가 100 인 샘플에서 이러한 점이 일반적으로 발생할 수 있다는 것입니다 (아무것도없는 경우에도). 마지막 문장 힌트에서 알 수 있듯이 상자 그림 전략을 통해 가짜 '이상 값'을 찾을 확률은 샘플 크기에 따라 다릅니다.

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

특이 치를 자동으로 식별하는 다른 전략이 있지만 이러한 방법을 사용하면 유효한 포인트를 '이상치'로 잘못 식별하고 때로는 실제 특이 치를 '유효 포인트'로 잘못 식별 할 수 있습니다. (이를 유형 I 및 유형 II 오류 로 생각할 수 있습니다 .)이 문제에 대한 나의 생각은 (가치가있는) 문제의 포인트를 포함 / 제외하는 효과 에 초점을 맞추는 것입니다 . 목표가 예측 인 경우 교차 검증 을 사용 하여 문제의 점을 포함하는 정도가 근사 평균 예측 오차를 증가시키는 지 여부를 결정할 수 있습니다 . 당신의 목표가 설명이라면, 당신은 dfBeta를 볼 수 있습니다(즉, 해당 포인트의 포함 여부에 따라 모델의 베타 추정치가 얼마나 변하는 지 살펴보십시오). 또 다른 관점 (아마도 최선)은 비정상적인 점을 버릴 것인지 선택 하지 않고 강력한 분석을 대신 사용하는 것입니다.


비현실적인 가정 인 단일 데이터 이상 (데이터 집합의 크기에 관계없이)이있는 경우에만 권장되는 절차가 안정적으로 작동합니다. Tukey는 데이터가 가우시안 분포에서 추출 된 경우 각 끝에서 관측치의 약 1 %를 제외하도록 휘스커 규칙을 보정했습니다. 당신의 시뮬레이션은 그것을 확인합니다. Tukey의 의견은 관측이 잘 수행되는 경우 데이터의 일부를 무시함으로써 발생하는 손실은 모든 실질적인 우려에 대한 결과가 아니라는 것이 었습니다. 특히 데이터가 아닌 경우의 이점과 관련하여.
user603

2
귀하의 의견에 감사드립니다, @ user603; 그것은 생각을 불러 일으키는 위치입니다. DF 베타를 사용 하여 가능한 이상 치를 탐지 하거나 강력한 분석 (대개 손실 함수로 Tukey의 바이 스퀘어)을 사용하여 폐기 할 데이터 포인트를 선택하는 대신 영향 을 방지 하는 데 어떤 절차를 반대 하고 있습니까?
gung-복직 모니카

내 의견에 명확성이 부족하다는 점을 지적 해 주셔서 감사합니다 (길이 제한으로 제한됨). 물론, 특히 첫 번째 의미는 dfbeta 와 교차 검증을 의미합니다 (후자는 교차 검증을 수행하는 데 사용 된 관측치가 원래 샘플에서 임의로 추출 된 경우에만 문제가됩니다. 교차 검증을 사용할 수있는 경우의 예는 테스트에 사용 된 관측치가 일시적으로 분리 된 샘플에서 추출되는 소위 품질 관리 설정에 있어야합니다.
user603

@ user603을 명확히 해 주셔서 감사합니다. 좀 더 철저하게 이해하려면이 아이디어를 가지고 놀아야합니다. 내 직감은 꽤 어려울 것입니다 없는 결과를 왜곡하는 통지 이상치에; 특이 치가 양쪽에서 결과를 똑같이 왜곡 해야하는 것처럼 보입니다.이 경우 베타가 거의 편향되지 않고 결과가 단순히 덜 중요합니다.
복직 모니카

1
내 직감은 결과를 왜곡하는 이상 치를 눈치 채기가 쉽지 않지만 불행히도 사실은 그렇지 않다는 것입니다. 또한 내가 대답 한 예를 살펴보십시오.
user603

12

먼저 잔차 그림을 살펴보아야합니다. 정규 분포를 따르는가? 그들은이 분산의 징후를 보입니까? 다른 음모도 살펴보십시오 (SPSS를 사용하지 않으므로 해당 프로그램 에서이 작업을 수행하는 방법이나보고있는 상자 그림을 정확하게 말할 수는 없지만 별표가 "나쁘지 않다"는 의미는 상상하기 어렵습니다. 이것들은 일부 기준에 의해 매우 특이한 점입니다).

그런 다음 특이 치가있는 경우 해당 특이 치를보고 이유를 알아 봅니다.

그런 다음 특이 값 유무에 관계없이 회귀를 시도 할 수 있습니다. 결과가 비슷하면 삶이 좋습니다. 각주와 함께 전체 결과를보고하십시오. 비슷하지 않은 경우 두 회귀를 모두 설명해야합니다.


1
피터 고맙습니다. QQ 플롯을 검사했으며 데이터가 눈에 띄지 않는 비정형으로 보이지 않습니다. 특이 치를 삭제해도 결과에 큰 차이가없는 것 같습니다. 그러므로 그냥 그대로 두어야합니까? SPSS의 사례 별 진단 표에서 다른 사람들의 생각을 듣고 싶습니다. 많은 감사합니다.
Anon

1
예, 그런 다음 "여러 개 이상의 특이 치가 삭제 된 분석 결과가 매우 유사한 결과를 보였습니다"와 같은 각주를 남길 것입니다.
Peter Flom-Reinstate Monica

2
이러한 절차를 사용하여 신뢰할 수있는 특이 치를 찾을 수 있다고 가정하더라도 ( 이상적으로는 할 수없는 ) , 이상하게도 "피겨 내기"/ 설명 할 수 없을 때해야 할 일의 문제를 이상하게 해결하지 못합니다. SPSS를 피하기위한 조언을 두 번째로 사용합니다. –
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.