선형 회귀 진단을 어떤 순서로 수행해야합니까?


24

선형 회귀 분석에서 특이 치를 분석하고 다중 공선 성을 조사하며 이분산성을 테스트합니다.

문제는 이것들을 적용하는 명령이 있습니까? 먼저 특이 치를 먼저 분석 한 다음 다중 공선 성을 조사해야합니까? 아니면 반대로?

이것에 대한 경험 규칙이 있습니까?


2
매우 거친 경험 법칙 : 피팅 하기 전에 공선 성을 조사 해야합니다. 존재하는 경우 (a) 공선 성을 처리하는 방법을 사용하거나 (b) 공선 피처를 제거하거나 (c) 피처를 변환 (예 : PCA 사용)해야합니다. 모델을 피팅하면 잔차에서 이분산성을 찾을 수 있습니다. 일반적으로 예측 모델을 만드는 경우 특이 치를 제거해서는 안됩니다. 대신 특이 치가있는 방법을 사용하십시오.
크리스 테일러

1
공선 성을 가장 잘 조사하는 방법은 무엇입니까? 예측 변수의 상관 행렬의 비 대각선 요소를보고 있습니까?
miura

1
공선 성을 조사하는 가장 좋은 방법은 조건 지수와 해당 비율이 설명하는 분산 비율입니다. 높은 상관 관계는 공선 성을 위해 필요하거나 충분한 조건이 아닙니다.
Peter Flom-Monica Monica 복원

답변:


28

이 과정은 반복적 이지만 자연스러운 순서가 있습니다.

  1. 명백한 수치 오류를 일으키는 조건 에 대해 먼저 걱정해야 합니다 . 다중 공선 성은 그 중 하나입니다. 불안정한 방정식 시스템을 생성하여 잠재적으로 옳지 않은 오답을 얻을 수 있기 때문입니다 (소수 16 자리까지). 여기의 문제는 일반적으로 문제가 해결 될 때까지 진행할 수 없음을 의미합니다. 다중 공선 성은 일반적으로 분산 팽창 인자 및 "모자 행렬"의 유사한 검사를 사용하여 진단됩니다. 이 단계에서의 추가 점검에는 데이터 세트에서 결 측값의 영향을 평가하고 중요한 매개 변수의 식별 가능성을 검증하는 것이 포함될 수 있습니다. (이산 독립 변수의 조합이 누락되면 때때로 문제가 발생할 수 있습니다.)

  2. 다음으로 출력이 대부분의 데이터를 반영하는지 또는 작은 서브 세트에 민감한 지 여부에 대해 걱정해야합니다 . 후자의 경우 이후에 수행하는 다른 모든 작업이 오도 될 수 있으므로 피해야합니다. 절차에는 이상치 및 레버리지 검사가 포함됩니다 . (높은 수준의 데이텀은 이상 치가 아니더라도 모든 결과에 과도하게 영향을 줄 수 있습니다.) 회귀 절차에 대한 강력한 대안이 존재하는 경우 적용하기에 좋은시기입니다. 이를 사용하여 외부 값을 감지하십시오.

  3. 마지막으로 수치 적으로 안정적이고 계산을 신뢰할 수 있고 전체 데이터 세트를 반영하는 상황을 달성 한 후에는 출력을 올바르게 해석하는 데 필요한 통계적 가정을 검토해야합니다 . 주로 이러한 문제는 잔차 분포 (이 분산도 포함하지만 대칭, 분포 형태, 예측 된 값 또는 기타 변수와의 상관 관계, 자기 상관으로 확장), 적합도 ( 상호 작용 항에 대한 가능한 요구 사항), 종속 변수의 재 발현 여부 및 독립 변수의 재 발현 여부

어떤 단계에서든 무언가를 수정해야하는 경우 처음으로 돌아가는 것이 좋습니다. 필요한만큼 반복하십시오.


2
저는 실제로 VIF보다는 조건 인덱스를 사용하는 것을 선호합니다. 나는 이것들에 대한 논문을 잠시 전에 썼다.
Peter Flom-Monica Monica 복원

1
@ 피터 좋은 지적. 조건 지수도 선호하지만 VIF가 현재 매우 인기가있는 것 같습니다.
whuber

whuber, 나는 오늘 일찍 당신의 의견에서 여기에 따라 갔다. 나는 한 번의 의사 결정 과정에서 다중 공선성에 관한 몇 가지 우려에 대해 통계 학자와상의했다. 그는 회귀 분석에서 IV의 특성에 따라 공선 성이 모델링되는 현상의 구조적 일부로 간주 될 수 있다고 주장했다. 나는 아마도 그의 정확한 언어를 망칠 것입니다. 나는 그의 이름을 다시 찾기 위해 파야 할 것입니다. 그냥 기회를 물어보십시오. :)
Alexis

@Alexis 통계학자가 미묘하고 정교한 다중 공선 성 개념을 가지고있는 것 같습니다. 나는 그것을 명확하게 표현하는 교과서를 생각할 수 없다.
whuber

나는 그를 추적하고 그것에 대해 물어 봐야합니다. :)
Alexis

3

상황에 따라 다르다고 생각합니다. 특정 문제가 예상되지 않으면 순서대로 확인할 수 있습니다. 특이 치를 예상하고이를 감지 한 후 제거해야 할 이유가있을 경우 먼저 특이 치를 확인하십시오. 관측치가 제거 된 후 모델의 다른 문제가 변경 될 수 있습니다. 그 후, 다중 공동 성과이 분산 사이의 순서는 중요하지 않습니다. 나는 이상 치가 임의로 제거되어서는 안된다는 Chris에 동의합니다. 관측치가 잘못되었다고 생각할 이유가 있어야합니다.

물론 다중 공선 성 또는 이분산성을 관찰하면 접근 방식을 변경해야 할 수도 있습니다. 다중 공선 성 문제는 공분산 행렬에서 관찰되지만 다중 공선 성을 탐지하기위한 특정 진단 테스트가 있으며 레버리지 지점과 같은 다른 문제 는 Belsley, Kuh 및 WelschRegression Diagnostics 책 또는 Dennis Cook의 회귀 책 중 하나를 참조하십시오 .


9
Michael, 나중에 서식 옵션을 사용할 수 있습니까? 링크를 삽입하는 올바른 키는 ctrl-c가 아니라 ctrl-l입니다.
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.