중심 변수 계층 회귀 분석을 사용한 교호 작용 항? 우리는 어떤 변수를 중심에 두어야합니까?


9

계층 적 회귀 분석을 실행 중이며 의심의 여지가 거의 없습니다.

  1. 중심 변수를 사용하여 교호 작용 항을 계산합니까?

  2. 종속 변수를 제외하고 데이터 세트에있는 모든 연속 변수를 중앙에 배치해야합니까?

  3. sd가 평균보다 훨씬 높기 때문에 일부 변수를 기록해야 할 때 방금 기록 된 변수 또는 초기 변수를 중앙에 배치합니까?

예 : 변수 "회전율"---> 기록 회전율 (sd가 평균에 비해 너무 높기 때문에) ---> Centered_Turnover?

또는 직접 매출액-> Centered_Turnover 일 것입니다.

감사!!

답변:


10

공선 성을 줄이기 위해 교호 작용과 관련된 용어를 중심에 두어야합니다.

set.seed(10204)
x1 <- rnorm(1000, 10, 1)
x2 <- rnorm(1000, 10, 1)
y <- x1 + rnorm(1000, 5, 5)  + x2*rnorm(1000) + x1*x2*rnorm(1000) 

x1cent <- x1 - mean(x1)
x2cent <- x2 - mean(x2)
x1x2cent <- x1cent*x2cent

m1 <- lm(y ~ x1 + x2 + x1*x2)
m2 <- lm(y ~ x1cent + x2cent + x1cent*x2cent)

summary(m1)
summary(m2)

산출:

> summary(m1)

Call:
lm(formula = y ~ x1 + x2 + x1 * x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  193.333    335.281   0.577    0.564
x1           -15.830     33.719  -0.469    0.639
x2           -14.065     33.567  -0.419    0.675
x1:x2          1.179      3.375   0.349    0.727

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015

> summary(m2)

Call:
lm(formula = y ~ x1cent + x2cent + x1cent * x2cent)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     12.513      3.203   3.907 9.99e-05 ***
x1cent          -4.106      3.186  -1.289    0.198    
x2cent          -2.291      3.198  -0.716    0.474    
x1cent:x2cent    1.179      3.375   0.349    0.727    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015


library(perturb)
colldiag(m1)
colldiag(m2)

다른 변수를 중심에 두는 것은 당신에게 달려 있습니다. 상호 작용에 관여하지 않는 변수의 중심을 맞추는 것 (표준화와 반대)은 절편의 의미를 바꾸지 만 다른 것들은 그렇지 않습니다.

x1 <- rnorm(1000, 10, 1)
x2 <- x1 - mean(x1)
y <- x1 + rnorm(1000, 5, 5) 
m1 <- lm(y ~ x1)
m2 <- lm(y ~ x2)

summary(m1)
summary(m2)

산출:

> summary(m1)

Call:
lm(formula = y ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5412     1.6003   4.087 4.71e-05 ***
x1            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

> summary(m2)

Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  15.0965     0.1607  93.931  < 2e-16 ***
x2            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

그러나 변수에 대한 로그를 가져와야하는 것이 합리적이거나 모델의 잔차가 변수가 많기 때문에가 아니라는 것을 나타 내기 때문입니다. 회귀는 변수 분포에 대해 가정하지 않고 잔차 분포에 대해 가정합니다.


1
답변 주셔서 감사합니다, 피터! 따라서 먼저 변수 (모든 예측 변수)를 기록해야한다고 가정하고 그 후에 교호 작용 항을 계산하는 데 필요한 독립 변수 만 중앙에 배치합니다. 질문 하나 더 : 변수의 중심을 맞추거나 표준화하는 것이 좋습니다? 다시 한번 감사드립니다 !!
PhDstudent

1
예, 센터링하기 전에 기록하십시오. 표준화와 센터링은 다른 일을합니다. 둘 다 잘못이 아닙니다. 표준화와 같은 일부는 보통 "원시"변수를 선호합니다.
Peter Flom

y <- x1 + rnorm(1000, 5, 5) + x2*rnorm(1000) + x1*x2*rnorm(1000)대답을 설명하는 데 도움이 되는 생성 모델을 정의하는 방법을 알지 못합니다 . 평균은 이고 분산은 이므로 생성 모델에는 교호 작용 항이 없습니다. 엑스1+51+25+1+1
Rufo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.