다중 회귀 모델에서 상관 예측 변수를 갖는 효과는 무엇입니까?


45

선형 모델 클래스에서 두 예측 변수가 서로 연관되어 있고 두 예측 변수가 모두 모형에 포함되면 하나는 중요하지 않다는 것을 알게되었습니다. 예를 들어, 집의 크기와 침실 수가 서로 연관되어 있다고 가정하십시오. 이 두 예측 변수를 사용하여 주택 비용을 예측할 때 둘 다 동일한 정보를 많이 제공하기 때문에 그 중 하나를 삭제할 수 있습니다. 직관적으로 이것은 의미가 있지만 몇 가지 기술적 질문이 있습니다.

  1. 모형에 예측 변수를 하나만 포함하거나 두 예측 변수를 모두 포함 할 때 회귀 계수의 p- 값에서이 효과가 어떻게 나타 납니까?
  2. 회귀 계수의 분산은 모형에 예측 변수를 둘 다 포함 시키거나 하나만 있으면 어떻게 영향을 받습니까?
  3. 모형이 덜 중요하게 선택하는 예측 변수를 어떻게 알 수 있습니까?
  4. 예측 변수를 하나만 포함하거나 두 예측 변수를 모두 포함하면 예측 비용의 가치 / 변동이 어떻게 달라 집니까?

6
일부 질문에 대한 답변은에서와 같은 다른 스레드에 출연 한 stats.stackexchange.com/a/14528 하는 상황에 대해 설명, 모든 에만 약간의 상관 관계 예측의 집합 중 하나가 속해 심지어 그들이 비록 집단적으로 미미한 것으로 나타납니다 모델에서. 좋은 질문이지만 많은 고려 사항과 기술로 이어집니다. 전체 책이 그들에 대해 쓰여졌습니다. 예를 들어 Frank Harrell의 회귀 모델링 전략을 참조하십시오 .
whuber

1
집 크기와 침실을 사용하면 상관 관계가 1 또는 -1과 다른 경우 무의미 함이 보장되지 않음을 알 수 있습니다. 실제로 동일한 크기의 2 베드룸 및 3 베드룸 하우스가 있으며 비용이 (상당히) 다를 수 있으므로 두 예측 변수가 모두 중요합니다. 그러나 평방 미터 크기와 평방 피트 크기는 상관 관계 = 1이며 그 중 하나를 항상 삭제할 수 있습니다.
Pere

답변:


38

당신이 요구하는 주제는 multicollinearity 입니다. 태그 아래에 분류 된 CV의 일부 스레드를 읽으려고 할 수 있습니다 . 위에 링크 된 @ whuber의 답변 도 시간 가치가 있습니다.


"두 예측 변수가 서로 연관되어 있고 두 예측 변수가 모두 모형에 포함되어 있으면 중요하지 않다"는 주장은 정확하지 않습니다. 변수의 실제 효과가있는 경우 변수가 클 확률은 효과의 크기, 오류 분산의 크기, 변수 자체의 분산, 데이터 양과 같은 여러 가지 함수입니다. 모델에있는 다른 변수의 수와 변수의 상관 관계도 관련이 있지만 이러한 사실을 무시하지는 않습니다. 다음과 같은 간단한 데모를 고려하십시오 R.

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant


엑스1엑스2아르 자형2엑스11/(1아르 자형2)엑스110엑스110×엑스1

상관 관계가있는 변수와 변수를 모두 포함하면 어떤 일이 일어날 지 생각하는 것은 비슷하지만 위에서 설명한 방법보다 약간 더 복잡합니다. 변수를 포함하지 않으면 모형이 더 적은 자유도를 사용하므로 잔차 분산과 그로부터 계산 된 모든 것 (회귀 계수의 분산 포함)이 변경됩니다. 또한 포함되지 않은 변수가 실제로 반응과 연관된 경우 해당 변수로 인한 반응의 분산이 잔차 분산에 포함되어 다른 것보다 크게됩니다. 따라서 여러 가지 사항이 동시에 변경되고 (변수가 다른 변수와 상관 관계가 있는지 여부와 잔차 분산) 다른 변수를 포함 / 제거하는 정확한 효과는 해당 변수의 균형에 따라 달라집니다.


VIF에 대한 이해로 무장 한 다음은 귀하의 질문에 대한 답변입니다.

  1. 회귀 계수의 표본 분포 분포의 분산이 모형의 다른 변수와 상관되어있는 경우 (VIF의 계수에 따라) 더 크므로 p- 값은 그렇지 않은 경우보다 높을 수 있습니다 (즉, 덜 중요 함). .
  2. 이미 설명한 것처럼 회귀 계수의 분산은 더 클 것입니다.
  3. 와이
  4. 예측 된 값과 분산이 어떻게 변하는지는 매우 복잡합니다. 변수가 얼마나 강한 상관 관계가 있는지와 변수가 데이터의 응답 변수와 연관되는 방식에 따라 다릅니다. 이 문제와 관련하여 내 대답을 읽는 데 도움이 될 수 있습니다. 다중 회귀 분석에서 다른 변수를 '제어'와 '무시'하는 것에는 차이가 있습니까?

5

이것은 더 많은 의견이지만 그래프와 코드를 포함하고 싶었습니다.

"두 예측 변수가 서로 연관되어 있고 두 예측 변수가 모두 모형에 포함되어 있으면 하나만 중요하지 않다"는 말은 "하나만"을 의미하는 경우에는 거짓이라고 생각합니다. 이진 통계적 유의성은 변수 선택에 사용할 수 없습니다.

허벅지 둘레, 피부 주름 두께 * 및 팔 중앙 둘레에서 체지방률의 회귀를 사용한 반례입니다.

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

여기에 이미지 설명을 입력하십시오

회귀 테이블에서 볼 수 있듯이 p- 값은 약간 다르지만 모든 것이 중요하지 않습니다.

β

그렇다면 어떤 예측 변수가 덜 중요한지 어떻게 알 수 있습니까? 회귀 변수는 두 가지 유형으로 분류 할 수 있습니다.

  1. 각 회귀 변수에 고유 한 변형
  2. 회귀자가 공유하는 변형

아르 자형2


* 피부 주름은 삼두근 근육에 걸리는 피부 주름의 너비이며 캘리퍼를 사용하여 측정합니다.


나는 당신의 예를 좋아하지만, 원래 질문의 진술이 "만약 [...], 하나만 중요하지 않을 것"이라고 말한 경우에 반대의 예가 될 수 있지만, "only"라는 단어는 없습니다.
amoeba는 Reinstate Monica가

@amoeba 훌륭한 지적입니다. 내 의견을 수정하겠습니다.
Dimitriy V. Masterov 2018

"각 회귀 분석기의 계수를 추정 할 때는 첫 번째 만 사용됩니다. 공통 변동은 할당 할 수 없으므로 무시됩니다"
mac

3

@ whuber가 지적했듯이 이것은 복잡한 질문입니다. 그러나 게시물의 첫 번째 문장은 매우 간단합니다. 두 개 이상의 변수가 서로 관련되어 있고 두 변수가 모두 종속 변수와 관련되는 경우가 종종 있습니다. 이들이 중요한지 여부는 효과 크기와 셀 크기에 따라 다릅니다.

귀하의 예에서, 주어진 크기의 집에 대해 사람들이 더 적은 방을 선호한다고 가정하십시오 (적어도 NYC에서는 이것이 합리적이지 않습니다-오래된 건물, 더 단단한 벽 등을 나타내며 이웃에 대한 표시 일 수 있음). 그러면 둘 다 반대 방향으로 중요 할 수 있습니다!

또는 두 가지 변수가 주택 크기와 이웃이라고 가정하십시오. 이것은 더 나은 이웃의 더 큰 주택과 관련이있을 것입니다. 그러나 여전히 중요 할 수 있으며 반드시 둘 다 주택 가격과 관련이 있습니다.

또한 "상관 된"마스크 만 사용하면 복잡성이 줄어 듭니다. 변수는 상관 관계없이 강력하게 관련 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.