다중 선형 회귀 분석에서 왜 유의 한 F 통계량 (p <.001)을 가질 수 있지만 모든 회귀 분석에서 t- 값이 매우 높은가?
내 모델에는 10 개의 회귀자가 있습니다. 하나는 p- 값이 0.1이고 나머지는 0.9 이상입니다.
이 문제를 해결 하려면 다음 질문을 참조하십시오 .
다중 선형 회귀 분석에서 왜 유의 한 F 통계량 (p <.001)을 가질 수 있지만 모든 회귀 분석에서 t- 값이 매우 높은가?
내 모델에는 10 개의 회귀자가 있습니다. 하나는 p- 값이 0.1이고 나머지는 0.9 이상입니다.
이 문제를 해결 하려면 다음 질문을 참조하십시오 .
답변:
Rob이 언급했듯이 이것은 상관 관계가 높은 변수가있을 때 발생합니다. 내가 사용하는 표준 예는 신발 크기에서 체중을 예측하는 것입니다. 오른쪽 또는 왼쪽 신발 크기로 체중을 동일하게 예측할 수 있습니다. 그러나 함께 작동하지 않습니다.
간단한 시뮬레이션 예
RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99
weights = 120 + rnorm(RSS, 10*RSS, 10)
##Fit a joint model
m = lm(weights ~ LSS + RSS)
##F-value is very small, but neither LSS or RSS are significant
summary(m)
##Fitting RSS or LSS separately gives a significant result.
summary(lm(weights ~ LSS))
독립 변수 사이의 상관 관계는 거의 발생하지 않습니다.
이유를 보려면 다음을 시도하십시오.
계수 iid 표준 법선 으로 10 개의 벡터 50 개를 그 립니다.
계산 에 대한 . 이것은 개별적으로 표준으로 만들지 만 그들 사이에는 약간의 상관 관계가 있습니다.
계산 . 참고 .
독립적 인 정규 분포 오차를 추가하십시오 . 약간의 실험을 통해 하는 이 꽤 잘 작동 한다는 것을 알았 습니다. 따라서 는 와 약간의 오차 의 합입니다 . 또한의 합계입니다 일부 플러스 같은 오류.
를 독립 변수로, 를 종속 변수로 간주합니다 .
여기에 가 상단과 왼쪽을 따라 가 순서대로 진행되는 데이터 세트 중 하나의 산점도 행렬이 있습니다.
와 사이의 예상 상관 은 때 이고 그렇지 않으면 입니다. 실현 된 상관 관계는 최대 62 %입니다. 그들은 대각선 옆에 더 단단한 산점도로 나타납니다.
에 대한 의 회귀를 살펴보십시오 .
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
은 F 통계는 매우 중요하지만, 아무도 독립 변수의도 모두 9에 대한 조정없이 없다.
무슨 일이 일어나고 있는지 보려면 홀수 에 대한 의 회귀를 고려하십시오 .
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
이러한 변수 중 일부는 Bonferroni 조정에서도 매우 중요합니다. (이 결과를 보면 말할 수있는 것이 훨씬 많지만, 요점에서 멀어 질 것입니다.)
이에 대한 직관 은 는 주로 변수의 하위 집합에 의존하지만 반드시 고유 하위 집합에 의존하지는 않는다는 것입니다. 이 부분 집합의 보완 ( ) 은 부분 집합 자체와의 상관 관계로 인해 에 대한 정보를 본질적으로 추가하지 않습니다 .Y 2 , Y 4 , Y 6 , Y 8 Z
이러한 종류의 상황은 시계열 분석 에서 발생 합니다 . 아래 첨자를 시간으로 간주 할 수 있습니다. 의 구성은 많은 시계열과 마찬가지로 짧은 범위의 직렬 상관 관계를 유도했습니다. 이로 인해 시리즈를 정기적으로 서브 샘플링하여 정보를 거의 잃지 않습니다.
우리가 이것에서 이끌어 낼 수있는 한 가지 결론 은 모델에 너무 많은 변수가 포함되어 있으면 실제로 중요한 변수를 숨길 수 있다는 것입니다. 이것의 첫 번째 징후는 개별 계수에 대한 중요하지 않은 t- 검정과 함께 매우 중요한 전체 F 통계량입니다. (변수 중 일부는 개별적으로 중요 경우에도이 자동으로 다른 사람이없는 것을 의미하지 않는다 즉, 단계적 회귀 전략의 기본 결함 중 하나 :. 그들이이 마스킹 문제에 대한 희생양.) 또한, 분산 팽창 요인을첫 번째 회귀 분석 범위는 2.55에서 6.09로 평균 4.79입니다. 가장 보수적 인 경험 법칙에 따라 일부 다중 공선 성을 진단하는 경계선에서만; 다른 규칙에 따라 임계 값보다 훨씬 낮습니다 (10은 상단 컷오프).
예측 변수가 서로 밀접한 관련이있을 때 발생합니다. 상관 관계가 매우 높은 예측 변수가 두 개만있는 상황을 상상해보십시오. 개별적으로, 둘 다 응답 변수와 밀접한 관련이 있습니다. 결과적으로 F- 검정은 p- 값이 낮습니다 (예측 변수가 반응 변수의 변동을 설명하는 데 매우 중요하다는 의미입니다). 그러나 각 예측 변수에 대한 t- 검정은 p- 값이 높기 때문에 다른 예측 변수의 효과를 허용 한 후에 설명 할 것이 많지 않기 때문입니다.
검색 할 키워드는 "collinearity"또는 "multicollinearity"입니다. 이는 Belsley, Kuh 및 Welsch의 "회귀 진단 : 영향력있는 데이터 및 공생 원 식별" 교과서에 설명 된 VIF (변이 팽창 인자 ) 또는 진단법을 사용하여 감지 할 수 있습니다 . VIF는 이해하기가 훨씬 쉽지만 인터셉트와 관련된 공선 성을 처리 할 수 없습니다 (예 : 자체적으로 또는 선형 조합으로 거의 일정한 예측 변수). 반대로 BKW 진단은 훨씬 덜 직관적이지만 관련된 공선 성을 처리 할 수 있습니다. 절편.
당신이 얻는 대답은 당신이 묻는 질문에 달려 있습니다. 이미 작성된 점 외에도 개별 매개 변수 F 값과 전체 모델 F 값은 다른 질문에 답변하므로 다른 답변을 얻습니다. 개별 F 값이 그다지 중요하지 않은 경우, 특히 모델에 2 개 또는 3 개 이상의 IV가있는 경우에도 이러한 현상이 발생합니다. 방법이있을 수는 있지만 개별 p- 값을 결합하고 의미있는 것을 얻는 방법은 없습니다.