선형 회귀 분석에서 특이 치를 어떻게 처리해야합니까?


73

종종 통계 분석가에게 세트 데이터 세트를 전달하고 선형 회귀와 같은 기술을 사용하여 모델에 적합하도록 요청합니다. 매우 자주 데이터 세트에 "아, 예, 우리는 이러한 데이터 포인트 중 일부를 수집하는 것을 엉망으로 만들었습니다.

이 상황은 잘못된 데이터 일 수있는 특이 치의 존재에 의해 크게 영향을받는 회귀 적합을 초래합니다. 다음과 같이 주어진다 :

  • 과학적, 도덕적 관점에서 "맞춤을 나쁘게 보이게하는 것"이외의 다른 이유로 데이터를 버리는 것은 위험합니다.

  • 실제로 데이터를 수집 한 사람들은 "이 데이터 세트를 생성 할 때 정확히 어느 지점을 엉망으로 만들었습니까?"와 같은 질문에 대답 할 수없는 경우가 많습니다.

선형 회귀 분석에서 특이 치를 제외하기위한 기초로 사용할 수있는 통계 테스트 또는 경험 법칙은 무엇입니까?

다중 선형 회귀 분석에 대한 특별한 고려 사항이 있습니까?


답변:


33

특이 값을 제외하는 대신 강력한 회귀 방법을 사용할 수 있습니다. 예를 들어, R에서는 rlm()MASS 패키지lm()함수를 함수 대신 사용할 수 있습니다 . 추정 방법은 특이 치에 대해 다소 견고하게 조정될 수 있습니다.


rlm () 함수를 사용하면 계수와 t- 검정이 생성됩니다. 그러나 여기서 f- 검정, R- 제곱 값을 어떻게 얻을 수 있습니까? 올바른 경우 간단한 'lm'요약 결과에서 이러한 f- 검정 및 R 제곱 값을 가져올 수 없다고 가정합니다.
Eric

1
강력한 회귀 분석을 위해 F 검정의 가정은 더 이상 충족되지 않으며 R ^ 2는 더 이상 동일하지 않은 여러 가지 방법으로 정의 할 수 있습니다. Stata에 대한 자세한 내용은 stats.idre.ucla.edu/stata/faq/… 를 참조하십시오 .
Rob Hyndman


그러나 f-test 결과를 제공하는 sfsmisc 패키지에서 f.robftest라는 명령을 찾습니다. 이 결과를 사용하여 rlm에 대한 f- 검정 통계를 정의 할 수 있습니까? 또한 1-sum (residuals (rlm (y ~ x)) ^ 2) / sum ((y-mean (y)) ^ 2)와 같이 R 제곱 수학 공식에 값을 입력하여 R 제곱을 얻는 것처럼 보입니다. . t- 검정 값이 계수의 중요성을 확인하기 위해 95 % 신뢰 수준의 t- 값과 비교 한 요약 (rlm (y ~ x))에서 t- 시험 값을 얻습니다. 이 방법들을 사용할 수 있습니까?
Eric

22

때로는 특이 치가 잘못된 데이터이므로 오타와 같이 제외해야합니다. 때때로 그들은 Wayne Gretzky 또는 Michael Jordan이며 보관해야합니다.

이상치 탐지 방법에는 다음이 포함됩니다.

일 변량-> 상자 그림. 사 분위수 범위의 1.5 배를 벗어난 것은 특이 치입니다.

이변 량-> 신뢰 타원의 산점도. 예를 들어 95 % 신뢰 타원은 특이 치입니다.

다변량-> Mahalanobis D2 거리

이러한 관측치를 특이 치로 표시하십시오.

로지스틱 회귀 분석 (Y = IsOutlier)을 실행하여 체계적인 패턴이 있는지 확인하십시오.

하위 모집단을 대표하지 않음을 증명할 수있는 것을 제거하십시오.


그리고 여전히 특이 치가있는 경우 선형이 아닌 다른 모델을 사용하십시오. 예를 들어, 행동과 같은 힘 법칙이있는 모델을 사용하는 경우 Michael Jordan은 더 이상 이상 치가 아닙니다 (모델을 수용 할 수있는 기능 측면에서).
drevicko

1
여기에 언급 된 대부분의 내용에 동의하지만, " 사 분위 사 분위수 범위의 1.5 배 이상은 특이 치 "가 이론적 원칙의 규칙 이 아니라 관례 라는 추가주의를 추가하고 싶습니다 . 데이터 포인트를 배제하기위한 근거로 사용해서는 안됩니다.
mkt

20

나는 이상 값을 제외하고 할 말이 있다고 생각합니다. 회귀선은 데이터를 요약해야합니다. 레버리지로 인해 데이터 포인트의 1 %가 기울기에 50 % 영향을주는 상황이 발생할 수 있습니다.

특이 치를 배제했다고 아무에게도 말하지 않으면 도덕적이고 과학적인 관점에서만 위험합니다. 당신이 그들을 지적하는 한 당신은 말할 수 있습니다 :

"이 회귀선은 대부분의 데이터에 아주 잘 맞습니다.이 추세에 맞지 않는 가치가 실현 될 시간의 1 %는이 세상에 미친 시스템입니다."


1
"이봐, 미친 세상이야, 어떤 시스템도 완벽하지 않다"그 친구에게 +1! :)
bartektartanus

1
그래도 다른 모델을 고려하십시오. 실제 데이터 인 제거 된 "이상 값"이 가득 찬 세상은 실제로 중요한 것을 예측하지 못합니다. 많은 자연 과정에는 드문 극단적 인 사건이있는 행동과 같은 힘의 법칙이 있습니다. 선형 모델은 그러한 데이터에 적합하지 않을 수 있지만 (너무 좋지는 않지만) 하나를 사용하고 "이상 값"을 삭제하면 극단적 인 이벤트가 누락된다는 것을 의미합니다.
drevicko

10

샤피,

말 그대로 귀하의 질문에 따르면, 통계적 테스트가 없거나 선형 회귀 분석에서 특이 치를 제외 하기위한 기초로 사용할 수있는 경험적 규칙이 없다고 주장합니다 (주어진 관측치가 특이 치인지 여부를 결정하는 것과는 대조적으로). 이것은 주제 영역 지식에서 가져와야합니다.

나는 시작하는 가장 좋은 방법은 특히 수집 한 다른 변수를 고려할 때 이상 치가 의미가 있는지를 묻는 것입니다. 예를 들어, 다양한 스포츠 부상 클리닉에서 모집 한 600 파운드의 여성이 연구에 참여하는 것이 정말 합리적입니까? 또는 60 세에 불과한 사람이 55 세이거나 전문적인 경험을하는 것이 이상하지 않습니까? 기타 등등. 바라건대, 당신은 그것들을 버리거나 데이터 컴파일러가 당신을 위해 레코드를 다시 점검하도록 합리적인 근거를 갖기를 바랍니다.

또한 Rob과 Chris가 각각 제안한 것처럼 강력한 회귀 분석법과 관측치 삭제에 대한 투명한보고를 제안합니다.

이것이 도움이 되길 바랍니다. Brenden



5

특이 치를 탐지 한 다음 선형 회귀 분석에서 이러한 특이 치를 제거해야하는지 여부를 고려하는 두 가지 통계적 거리 측정법이 있습니다.

첫 번째는 Cook의 거리입니다. 이에 대한 좋은 설명은 Wikipedia : http://en.wikipedia.org/wiki/Cook%27s_distance 에서 찾을 수 있습니다 .

Cook의 거리가 멀수록 관측 값이 더 영향을 미칩니다 (회귀 계수에 영향을 미침). 관측치 제거를 고려해야 할 일반적인 차단 점은 Cook의 거리 = 4 / n입니다 (n은 샘플 크기).

: 두 번째는 잘 위키 백과에 의해 덮여있다 DFFITS입니다 http://en.wikipedia.org/wiki/DFFITS . 관측치 제거를 고려해야 할 일반적인 차단 점은 DFFITS 값의 2 배 sqrt (k / n)이며, 여기서 k는 변수 수이고 n은 표본 크기입니다.

두 측정 모두 일반적으로 유사한 관측 결과를 제공하는 유사한 결과를 제공합니다.


3

쓰레기, 쓰레기 ...

선형 회귀의 이점을 최대한 활용하려면 잡음이 정규 분포를 따릅니다. 이상적으로는 대부분 데이터와 약간의 노이즈가 있습니다. ... 대부분 노이즈와 데이터는 없습니다. 잔차를 보면 선형 피팅 후 잔차의 정규성을 테스트 할 수 있습니다. 명백한 눈부신 오류를 위해 선형 맞춤 전에 입력 데이터를 필터링 할 수도 있습니다.

일반적으로 정규 분포에 맞지 않는 가비지 입력 데이터의 일부 노이즈 유형은 다음과 같습니다.

  • 직접 입력 한 데이터가 없거나 추가 된 자리수 (10 배 이상)
  • 여러 데이터 세트를 병합하여 잘못되었거나 잘못 변환 된 단위 (그램 대 킬로 vs 파운드; 미터, 피트, 마일, km) 잘못)
  • 0, -1, -99999 또는 99999와 같은 코드를 사용하여 "해당되지 않음"또는 "열을 사용할 수 없음"과 같이 숫자가 아닌 것을 의미하며 유효한 데이터와 함께 선형 모델로 덤프

각 열의 "유효한 데이터"에 대한 사양을 작성하면 유효하지 않은 데이터에 태그를 지정하는 데 도움이 될 수 있습니다. 예를 들어, 사람의 키 (cm)는 100-300cm 범위에 있어야합니다. 오타의 높이가 1.8 인 경우 1.8m이라고 가정하고 180으로 변경할 수 있다면 최대한 많이 걸러 내고 최대한 많은 필터링을 문서화하는 것이 가장 안전하다고 말하고 싶습니다.



0

제외의 기초로 사용되는 통계 테스트 :-표준화 된 잔차-레버리지 통계-Cook의 거리 (위의 두 가지 조합).

경험상 제외는 잘못된 데이터 입력 인스턴스로 제한되어야합니다. 선형 회귀 모형에서 가중치를 재조정하는 것은 매우 좋은 절충 방법입니다. R에서 이것의 적용은 Rob에 의해 제공됩니다. 좋은 예는 다음과 같습니다. http://www.ats.ucla.edu/stat/r/dae/rreg.htm

제외가 필요한 경우 '한 규칙의 경험치'는 Dfbeta 통계 (이상 치가 삭제 될 때 추정값의 변화를 측정)와 관련이 있습니다. 따라서 DfBeta 통계의 절대 값이 2 / sqrt (n)를 초과하면 특이 치.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.