우리는 언제 공선 성을 말할 수 있습니까?


16

선형 모델에서는 설명 변수 사이에 관계가 있는지 확인해야합니다. 이들이 너무 많은 상관 관계가 있으면 공선 성이 존재합니다 (즉, 변수가 서로를 부분적으로 설명합니다). 나는 현재 각 설명 변수 사이의 쌍별 상관 관계를보고 있습니다.

질문 1 : 상관 관계가 너무 많은 분류는 무엇입니까? 예를 들어 피어슨 상관 관계가 0.5로 너무 큽니까?

질문 2 : 상관 계수를 기준으로 두 변수 사이에 공선 성이 있는지 여부를 완전히 결정할 수 있습니까?

질문 3 : 두 변수의 산점도를 그래픽으로 확인하면 상관 계수가 나타내는 것에 무엇이 추가됩니까?


2
3+ 변수 중 공선 성 (단일성)은 높은 쌍별 상관 관계로만 감소되는 것은 아닙니다. "multicollinearity"태그가 붙은 질문을 사이트에서 검색하십시오. 또한이 답변을 읽는 것이 좋습니다 : stats.stackexchange.com/a/70910/3277 .
ttnphns 2014 년

답변:


15
  1. 아르 자형=1.0아르 자형=.50아르 자형.95 합니다. 내 대답에서 VIF 및 다중 공선성에 대한 자세한 내용은 여기를 참조하십시오.

  2. 아르 자형.95

  3. 단순히 수치 요약 / 테스트 결과가 아니라 데이터를 보는 것이 항상 현명합니다. 여기서 정식 참조는 Anscomb의 사중주 입니다.


3

세 가지 질문에 대한 나의 의견은

질문 1 상관 관계가 너무 많은 분류는 무엇입니까? 예를 들어, 피어슨 상관 관계 0.5는 너무 큽니까?

많은 저자들은 (다중) 공선 성이 문제가되지 않는다고 주장합니다. 주제에 대한 다소 산만 한 의견을 보려면 여기여기 를 살펴보십시오 . 결론은 다중 공선 성이 더 작은 (유효한) 표본 크기를 갖는 것 이외의 가설 검정에 영향을 미치지 않는다는 것입니다. 예를 들어 회귀를 수행하는 경우 회귀 계수를 해석하기가 어렵지만 그렇게하기로 결정한 경우 기본 가정을 위반하지 않습니다.

질문 2 상관 계수를 기준으로 두 변수 사이에 공선 성이 있는지 여부를 완전히 결정할 수 있습니까?

Pearson의 상관 계수 계산 (선형성을 가정하고 그렇게했을 경우)에서 Spearman의 순위 , 거리 상관 관계 , 심지어 데이터 세트 에서 PCA 를 수행하는 것 까지 두 변수 사이의 상관 관계를 측정하는 여러 가지 방법이 있다고 생각 합니다. 그러나 나는이 질문에 대한 대답을 나보다 더 잘 알고있는 사람들에게 남겨 둘 것입니다.

질문 3 두 변수의 산점도를 그래픽으로 확인하면 상관 계수가 나타내는 것에 무엇이 추가됩니까?

IMO, 정답은 '아니요'입니다.


3
IMHO, (3)에 대한 대답은 매우 그렇습니다. 상관 계수는 관계의 선형성에 대한 단일 수치 평가 만 제공 할 수 있지만 산점도를 간략히 살펴보면 그에 대한 풍부한 추가 정보를 얻을 수 있습니다 사전에 예상하지 못한 행동을 포함한 관계. 그러나이 질문들에 대한 실제 관심은 3 가지 이상의 변수들 사이의 관계를 평가하는 방법 ((3)이 실제로 어떻게 표현 되었는가)에도 불구하고,이 경우에도 산점도 행렬은 @ttnphns가 지적한 것처럼 모든 것을 나타내지 않습니다.
whuber

1
(1)까지는 Dave Gile의 블로그에 대한 참고 문헌을 다르게 읽습니다. 그는 다중 공선 성에 대한 공식적인 테스트 가 잘못 되었다고 주장합니다 . 나는 다중 공선 성이 문제가 아니라고 주장하는 것을 보지 못했다.
whuber

Dave Gile의 대답에 대한 나의 이해는 다중 공선 성이 결과에 영향을 미치는 유일한 방법은 동등한 작은 표본 크기를 통한다는 것입니다. 따라서 작은 표본 크기를 테스트하는 것이 의미가없는 것처럼 다중 공선 성의 영향을 테스트하는 것은 의미가 없습니다. 그러나 나는 그것에 대해 당신의 의견을 듣고 기뻐할 것입니다.
pedrofigueira

더 큰 표본 크기가 필요한 것은 대부분의 연구에 큰 영향을 줄 수 있습니다! 거의 공선 성에 대한 미묘한 영향은 특히 stats.stackexchange.com/questions/50537stats.stackexchange.com/a/28476/919 와 같은 스레드에서 논의 된 모델 구축 및 변수 선택 과 관련이 있습니다. 그러나 Giles는 독립 변수가 무작위로 샘플링 된 것처럼 다중 공선성에 대한 공식 테스트를 논의하고 있습니다. 여기서 관심사는 다중 공선 성 진단 을 사용하여 모델의 기능과 한계를 이해하는 데 중점을 둔 것으로 보입니다 .
whuber

1

공선 성을 평가하는 일반적인 방법은 VIF (variance inflation factor)입니다. 이것은 'car'패키지 내의 'vif'기능을 사용하여 R에서 달성 될 수 있습니다. 이는 두 변수 사이의 상관 관계 만 보는 것보다 장점이 있습니다. 동시에 하나의 변수와 모델의 나머지 변수 사이의 상관 관계를 평가하기 때문입니다. 그런 다음 모형의 각 예측 변수에 대해 단일 점수를 제공합니다.

위에서 언급했듯이 단단하고 빠른 컷오프는 없지만 VIF 점수는 종종 5-10 사이에 문제가있는 것으로 결정됩니다. 이를 위해 필드 별 경험 법칙을 사용합니다. 또한 상관 예측 변수를 사용하는 데 반드시 유효하지 않은 것은 없습니다 (완벽하게 상관되지 않는 한). 효과를 분리하려면 더 많은 데이터가 필요합니다. 데이터가 충분하지 않으면 상관 된 예측 변수의 모수 추정치에 큰 불확실성이 있으며 이러한 추정치는 리샘플링에 민감합니다.

구체적으로 질문에 대답하려면 :

  1. 상관 계수를 사용하지 마십시오. 모든 예측 변수와 상호 작용없이 모형의 VIF를 사용합니다. 5-10의 VIF는 너무 많은 상관 관계를 나타내며, 특정 컷오프는 모델과 관련이있는 작업에 따라 다릅니다.

  2. 모델의 다른 예측 변수에 의존하므로 VIF를 사용하는 것이 유리합니다.

  3. 아니! 통계는 산점도를 사용하여 눈알을 더 잘 정량화합니다. 예측 변수를 서로 회귀 분석 할 때 OLS 가정을 완전히 위반하지 않는 한.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.