중요한 F 통계량 (p <.001)이지만 중요하지 않은 회귀 분석 t- 검정을 얻는 이유는 무엇입니까?


70

다중 선형 회귀 분석에서 왜 유의 한 F 통계량 (p <.001)을 가질 수 있지만 모든 회귀 분석에서 t- 값이 매우 높은가?

내 모델에는 10 개의 회귀자가 있습니다. 하나는 p- 값이 0.1이고 나머지는 0.9 이상입니다.


이 문제를 해결 하려면 다음 질문을 참조하십시오 .


2
상수도 중요하지 않습니까? 몇 건의 사건이 관련되어 있습니까? 변수는 몇 개입니까?
whuber

다중 공선 성은 어떻게 진단 되었습니까? 많은 방법이 있으며 일부는 다른 것보다 유익합니다. 더 많이 말하면 커뮤니티가 더 잘 대답 할 수 있습니다.
StasK

3
이 질문은 FAQ가되었습니다. 여기에 대한 답변 중 일부는 실질적으로 유사한 스레드에서 병합되었습니다.
whuber


나는 같은 문제를 겪었고 위의 대답 중 어느 것도 나를 도울 수 없습니다. 이제 나는 적어도 내 문제에 대한 답을 알고 있습니다. 모델 2의 F 값은 중요 할 수 있습니다. 모델 1과 동일한 '일정한'(변수)을 얻었 기 때문에 (F 값도 중요합니다). 'Sig'열에서 'Model Summary'라는 테이블을 봐야합니다. F 변화 '를 눌러 R 제곱의 변화가 유의한지 확인합니다 (모델 2의 경우). 이 값이 유의하면 b- 값도 중요해야합니다. F- 값을 완전히 무시할 수 있습니다.

답변:


53

Rob이 언급했듯이 이것은 상관 관계가 높은 변수가있을 때 발생합니다. 내가 사용하는 표준 예는 신발 크기에서 체중을 예측하는 것입니다. 오른쪽 또는 왼쪽 신발 크기로 체중을 동일하게 예측할 수 있습니다. 그러나 함께 작동하지 않습니다.

간단한 시뮬레이션 예

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

9
이 경우 두 모델이 똑같이 잘 예측된다는 점에 흥미롭고 중요합니다. 예측 자들 사이의 높은 상관 관계가 반드시 예측의 문제는 아니다. 다중 공선 성은 1) 분석가가 여러 회귀 계수를 부적절하게 해석하려고 할 때만 문제가됩니다. 2) 모델을 추정 할 수 없습니다. 3) SE가 팽창하고 계수가 불안정하다.
Brett

두 변수가 서로 밀접하게 관련되어 있으므로 t 테스트 결과는 중요하지 않지만 F 테스트 결과는 중요합니다. 그러나 어떻게 이런 일이 발생합니까? 내 말은,이 사실의 근본 원인은 무엇입니까?
yue86231

105

독립 변수 사이의 상관 관계는 거의 발생하지 않습니다.

이유를 보려면 다음을 시도하십시오.

  • 계수 iid 표준 법선 으로 10 개의 벡터 50 개를 그 립니다.(x1,x2,,x10)

  • 계산 에 대한 . 이것은 개별적으로 표준으로 만들지 만 그들 사이에는 약간의 상관 관계가 있습니다.yi=(xi+xi+1)/2i=1,2,,9yi

  • 계산 . 참고 .w=x1+x2++x10w=2(y1+y3+y5+y7+y9)

  • 독립적 인 정규 분포 오차를 추가하십시오 . 약간의 실험을 통해 하는 이 꽤 잘 작동 한다는 것을 알았 습니다. 따라서 는 와 약간의 오차 의 합입니다 . 또한의 합계입니다 일부 플러스 같은 오류.wz=w+εεN(0,6)zxiyi

를 독립 변수로, 를 종속 변수로 간주합니다 .yiz

여기에 가 상단과 왼쪽을 따라 가 순서대로 진행되는 데이터 세트 중 하나의 산점도 행렬이 있습니다.zyi

산점도 행렬

와 사이의 예상 상관 은 때 이고 그렇지 않으면 입니다. 실현 된 상관 관계는 최대 62 %입니다. 그들은 대각선 옆에 더 단단한 산점도로 나타납니다.yiyj1/2|ij|=10

에 대한 의 회귀를 살펴보십시오 .zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

은 F 통계는 매우 중요하지만, 아무도 독립 변수의도 모두 9에 대한 조정없이 없다.

무슨 일이 일어나고 있는지 보려면 홀수 에 대한 의 회귀를 고려하십시오 .zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

이러한 변수 중 일부는 Bonferroni 조정에서도 매우 중요합니다. (이 결과를 보면 말할 수있는 것이 훨씬 많지만, 요점에서 멀어 질 것입니다.)

이에 대한 직관 은 는 주로 변수의 하위 집합에 의존하지만 반드시 고유 하위 집합에 의존하지는 않는다는 것입니다. 이 부분 집합의 보완 ( ) 은 부분 집합 자체와의 상관 관계로 인해 에 대한 정보를 본질적으로 추가하지 않습니다 .Y 2 , Y 4 , Y 6 , Y 8 Zzy2,y4,y6,y8z

이러한 종류의 상황은 시계열 분석 에서 발생 합니다 . 아래 첨자를 시간으로 간주 할 수 있습니다. 의 구성은 많은 시계열과 마찬가지로 짧은 범위의 직렬 상관 관계를 유도했습니다. 이로 인해 시리즈를 정기적으로 서브 샘플링하여 정보를 거의 잃지 않습니다.yi

우리가 이것에서 이끌어 낼 수있는 한 가지 결론 은 모델에 너무 많은 변수가 포함되어 있으면 실제로 중요한 변수를 숨길 수 있다는 것입니다. 이것의 첫 번째 징후는 개별 계수에 대한 중요하지 않은 t- 검정과 함께 매우 중요한 전체 F 통계량입니다. (변수 중 일부는 개별적으로 중요 경우에도이 자동으로 다른 사람이없는 것을 의미하지 않는다 즉, 단계적 회귀 전략의 기본 결함 중 하나 :. 그들이이 마스킹 문제에 대한 희생양.) 또한, 분산 팽창 요인을첫 번째 회귀 분석 범위는 2.55에서 6.09로 평균 4.79입니다. 가장 보수적 인 경험 법칙에 따라 일부 다중 공선 성을 진단하는 경계선에서만; 다른 규칙에 따라 임계 값보다 훨씬 낮습니다 (10은 상단 컷오프).


5
좋은 대답입니다. 나에게서 플러스 1. 나는 그것을 더주고 싶었을 것입니다.
Michael Chernick

41

다중 공선 성

  • 앞에서 언급했듯이이 이전 질문 에서 논의했듯이 , 높은 수준의 다중 공선 성은 통계적으로 유의 한 이지만 정적으로 중요하지 않은 예측 변수의 주요 원인 중 하나 입니다.R2
  • 물론, 다중 공선 성은 절대 임계 값이 아닙니다. 초점 예측 자와의 상관 관계가 증가함에 따라 회귀 계수의 표준 오차가 증가합니다.

거의 모든 중요한 예측 변수

  • 다중 공선 성이없는 경우에도 둘 이상의 개별 예측 변수가 유의성에 가까워 전체적으로 예측이 통계적 유의성 임계 값을 초과하면 중요하지 않은 예측 변수와 전체 중요 모델을 얻을 수 있습니다. 예를 들어 알파 0.05를 사용하여 p- 값이 .06 및 .07 인 예측 변수가 두 개인 경우 전체 모형에 p <.05가 있으면 놀라지 않을 것입니다.

간결한 답변. 이것에 더하기 위해, 나는 데이터를 교란 시키거나 예측 변수를 제거하고 회귀 계수에 눈에 띄는 변화가 있는지 확인하는 것이 좋습니다. 예를 들어 부호 변경을 확인하십시오.
Mustafa S Eisa

38

예측 변수가 서로 밀접한 관련이있을 때 발생합니다. 상관 관계가 매우 높은 예측 변수가 두 개만있는 상황을 상상해보십시오. 개별적으로, 둘 다 응답 변수와 밀접한 관련이 있습니다. 결과적으로 F- 검정은 p- 값이 낮습니다 (예측 변수가 반응 변수의 변동을 설명하는 데 매우 중요하다는 의미입니다). 그러나 각 예측 변수에 대한 t- 검정은 p- 값이 높기 때문에 다른 예측 변수의 효과를 허용 한 후에 설명 할 것이 많지 않기 때문입니다.


안녕하세요, 방해해서 죄송합니다. 나는 (현재 질문 상황에 직면하고 있기 때문에) 귀하의 답변을 읽었지만 "다른 예측 자의 효과를 허용 한 후 설명 할 것이 많지 않습니다."라고 말함으로써 의미하는 바를 이해할 수 없습니다. 설명해달라고 부탁해도 될까요? 고마워
yue86231

1
@ yue86231 각 예측 변수마다 하나의 p- 값이 있지만 각 p- 값을 개별적으로 해석 할 수는 없습니다. 각 예측 변수 t- 검정은 다른 모든 변수에 의해 설명 된 분산 고려한 후에 만 변수의 유의성을 표시 할 수 있습니다 . 선형 회귀 계수와 표준 오차는 동시에 생성되므로 두 예측 변수는 서로의 유의성을 감소시킵니다.
Robert Kubrick

11

다음 모델을 고려하십시오 : , , , , 및 은 모두 서로 독립적 인 입니다.X1N(0,1)X2=aX1+δY=bX1+cX2+ϵδϵX1N(0,1)

그런 다음

Cov(X2,Y)=E[(aX1+δ)(bX1+cX2+ϵ)]=E[(aX1+δ)({b+ac}X1+cδ+ϵ)]=a(b+ac)+c

, 및 이것을 0으로 설정할 수 있습니다 . 그러나 모든 관계는 분명히 회귀 분석을 통해 쉽게 감지 할 수 있습니다.b = 2 c = 1a=1b=2c=1

변수가 서로 연관되어 있고 회귀가 중요하지 않은 문제를 이해한다고 말했다. 다중 공선 성을 자주 언급하여 조건을 설정했음을 의미하지만 최소 제곱의 형상에 대한 이해를 높여야합니다.


10

검색 할 키워드는 "collinearity"또는 "multicollinearity"입니다. 이는 Belsley, Kuh 및 Welsch의 "회귀 진단 : 영향력있는 데이터 및 공생 원 식별" 교과서에 설명 된 VIF (변이 팽창 인자 ) 또는 진단법을 사용하여 감지 할 수 있습니다 . VIF는 이해하기가 훨씬 쉽지만 인터셉트와 관련된 공선 성을 처리 할 수 ​​없습니다 (예 : 자체적으로 또는 선형 조합으로 거의 일정한 예측 변수). 반대로 BKW 진단은 훨씬 덜 직관적이지만 관련된 공선 성을 처리 할 수 있습니다. 절편.


9

당신이 얻는 대답은 당신이 묻는 질문에 달려 있습니다. 이미 작성된 점 외에도 개별 매개 변수 F 값과 전체 모델 F 값은 다른 질문에 답변하므로 다른 답변을 얻습니다. 개별 F 값이 그다지 중요하지 않은 경우, 특히 모델에 2 개 또는 3 개 이상의 IV가있는 경우에도 이러한 현상이 발생합니다. 방법이있을 수는 있지만 개별 p- 값을 결합하고 의미있는 것을 얻는 방법은 없습니다.


2
(-1) 그렇습니다-원본 포스터는 자신도 그 일이 일어났다는 것을 알고 있습니다. 문제는 정확히 공선 성 이외의 다른 원인이 될 수있는 것이었고 이것이 어떻게 대답하는지 알 수 없습니다.
매크로

4
@ 매크로이 답장에는 유용하고 유효한 관찰이 있기 때문에 다운 보트가 약간 거칠어 보입니다. 전체적인 의미와 개별 변수의 의미에 대한 테스트는 "다른 질문에 대한 대답"입니다. 분명히 그것은 정 성적이지만 더 이상 그렇게하지는 않습니다. 그리고 그 대답에는 올바른 직관력이 추가되어 그 대답보다 개선되었습니다.
whuber

1
이 회신에서 제공 한 유효한 정보 나 직감이 없다고 말한 적이 없습니다. 이 질문에 대한 정답이 있다면 지금 당장 응답했을 것입니다. 그것은 어려운 질문입니다. 나는이 응답이 단어의 의미에서 질문에 대답하지 않는 것만 말하는 것입니다.
매크로

9

명심해야 할 또 다른 사항은 개별 계수에 대한 검정은 각각 다른 모든 예측 변수가 모형에 있다고 가정한다는 것입니다. 즉, 다른 모든 예측 변수가 모형에있는 한 각 예측 변수는 중요하지 않습니다. 둘 이상의 예측 변수간에 상호 작용 또는 상호 의존성이 있어야합니다.

다른 사람이 위에서 요청한 것처럼-다중 공선 성이 부족하다는 것을 어떻게 진단 했습니까?


4

이것을 이해하는 한 가지 방법은 @StasK가 제안한 것처럼 최소 제곱의 기하학입니다.

또 다른 방법은 다른 변수를 제어 할 때 X가 Y와 관련이 있지만 혼자가 아니라는 것을 의미합니다. X 는 Y의 고유 한 분산과 관련이 있다고 합니다. 그러나 Y의 고유 분산은 총 분산과 다릅니다. 그렇다면 다른 변수는 어떤 차이를 제거합니까?

변수를 알려 주면 도움이 될 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.