다중 회귀 분석에서 예측 변수의 중요성 : 부분

21

선형 모델에서 부분 $R^2$ 와 계수 사이의 정확한 관계가 무엇인지, 그리고 요인의 중요성과 영향을 설명하기 위해 하나 또는 둘 다를 사용 해야하는지 궁금 합니다.

내가 아는 한, summary계수의 추정치와 anova각 요인에 대한 제곱합을 얻으면 한 요인의 제곱합의 합을 제곱의 합과 잔차의 합으로 나눈 비율은 부분 $R^2$ ( 다음 코드는에 있습니다 R).

library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
    summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe)

Residuals:
    Min      1Q  Median      3Q     Max 
-60.240 -15.738  -1.156  15.883  51.380 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.868e+02  6.492e+01  -4.418 5.82e-05 ***
income       8.065e-02  9.299e-03   8.674 2.56e-11 ***
young        8.173e-01  1.598e-01   5.115 5.69e-06 ***
urban       -1.058e-01  3.428e-02  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df Sum Sq Mean Sq F value    Pr(>F)    
income     1  48087   48087 67.4869 1.219e-10 ***
young      1  19537   19537 27.4192 3.767e-06 ***
urban      1   6787    6787  9.5255  0.003393 ** 
Residuals 47  33489     713                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

'young'(0.8) 및 'urban'(-0.1을 무시하고 전자의 약 1/8)에 대한 계수의 크기가 설명 된 분산 ( 'young'~ 19500 및 'urban'~ 6790, 즉 약 1/3).

따라서 요인의 범위가 다른 요인의 범위보다 훨씬 넓 으면 계수를 비교하기가 어렵다고 가정했기 때문에 데이터를 확장해야한다고 생각했습니다.

Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.29675 -0.33879 -0.02489  0.34191  1.10602 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.084e-16  8.046e-02   0.000  1.00000    
income       9.723e-01  1.121e-01   8.674 2.56e-11 ***
young        4.216e-01  8.242e-02   5.115 5.69e-06 ***
urban       -3.447e-01  1.117e-01  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df  Sum Sq Mean Sq F value    Pr(>F)    
income     1 22.2830 22.2830 67.4869 1.219e-10 ***
young      1  9.0533  9.0533 27.4192 3.767e-06 ***
urban      1  3.1451  3.1451  9.5255  0.003393 ** 
Residuals 47 15.5186  0.3302                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

그러나 이것이 실제로 차이를 만들지는 않지만 부분 와 계수의 크기 (이제 표준화 된 계수 임)는 여전히 일치하지 않습니다. $R^2$

22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young:  partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban:  partial R2 0.062, Coeff -0.34

'young'에 대한 부분 가 'urban'의 3 배 이기 때문에 'young'이 'urban'보다 3 배 많은 차이를 설명한다고 말하는 것이 공평 합니까? $R^2$ 왜 '젊음'의 계수가 '도시'의 계수의 3 배가 아닌가?

이 질문에 대한 답이 초기 질문에 대한 답을 알려줄 것이라고 생각합니다. 부분 또는 계수를 사용 하여 요인의 상대적 중요성을 설명해야합니까? (당분간 영향의 방향 무시-표시-) $R^2$

편집하다:

부분 에타 제곱은 내가 부분 라고하는 다른 이름 인 것 같습니다 . etasq {heplots} 는 비슷한 결과를 생성하는 유용한 함수입니다. $R^2$

etasq(mod)
          Partial eta^2
income        0.6154918
young         0.3576083
urban         0.1685162
Residuals            NA

— 로버트
소스

무엇을하거나 정확히 보여 주려고합니까? 추정 된 영향? 의의?

— IMA

예, 저는 t- 및 F- 테스트에 익숙합니다. afaik t- 및 F- 검정이 적합하지 않은 추정 된 영향을 보여 드리고자합니다.

— robert

1

내 질문은 : 부분 R² 또는 계수를 사용하여 각 요소가 결과에 얼마나 많은 영향을 미치는지를 보여야합니까? 나는 둘 다 같은 방향을 가리키고 있다고 가정했다. 데이터에 다중 공선 성이 있기 때문에 사실이 아닙니다. 자, '영'요소와 같은 진술을하고자 할 때 요소 '도시'보다 x 배 더 많은 결과에 영향을 미치고 x 배는 중요합니까?

— robert

1

@IMA에 동의하지 않습니다. 부분 R 제곱은 부분 상관과 직접 연결되므로 iv와 dv 사이의 혼란스러운 조정 관계를 연구 할 수 있습니다.

— Michael M

1

첫 페이지에 다시 표시되도록 질문을 편집했습니다. 나는 좋은 대답에 매우 관심이 있습니다. 아무 것도 나타나지 않으면 현상금을 제공 할 수도 있습니다. 그런데, 모든 예측 변수를 표준화 한 후의 회귀 계수를 "표준화 계수"라고합니다. 나는이 용어를 당신의 질문에 더 명확하게하기 위해 넣었습니다.

— amoeba는 Reinstate Monica

10

간단히 말해서 , 나는 독립적이지 않기 때문에 동일한 분석에서 부분 와 표준화 된 계수를 모두 사용하지 않을 것 입니다. 표준화 된 계수를 사용하여 관계를 비교하는 것이 일반적으로 모델 정의 (즉, ) 와 쉽게 관련되기 때문에 더 직관적이라고 주장합니다 . 부분 , 차례로, 본질적으로 예측 종속 변수 (DV) 사이의 고유 한 공유 편차의 비율 (상기 제 1 예측기에 대한 그것의 부분 상관의 제곱이다 $R^2$ $Y = \beta X$ $R^2$ $r_{x_1y.x_2...x_n}$ ). 또한, 매우 작은 오차에 적합하기 위해서는 모든 계수의 부분 가 1 인 경향이 있으므로 예측 변수의 상대적 중요성을 식별하는 데 유용하지 않습니다. $R^2$

효과 크기 정의

표준화 계수, 표준화 변수에 대한 모형을 추정하여 얻은 계수 (평균 = 0, 표준 편차 = 1). $\beta_{std}$ $\beta$
부분 예측 변수를 제한된 모형 (예측자가없는 전체 모형)에 추가하여 설명 된 잔차 변동 비율입니다. 다음과 같습니다 : $R^2$
- 모형의 다른 모든 예측 변수를 제어하여 예측 변수와 종속 변수 간의 부분 상관의 제곱입니다. . $R_{partial}^2 = r_{x_iy.X\setminus x_i}^2$
- 부분 예측 변수와 예측 변수에 기여한 제곱의 합에 대한 III 유형 제곱의 제곱 비율과 오류 $\eta^2$ $\text{SS}_\text{effect}/(\text{SS}_\text{effect}+\text{SS}_\text{error})$
제한된 모델과 전체 모델의 차이. 동일: $\Delta R^2$ $R^2$
- 제곱 반 부분 상관 관계 $r_{x_i(y.X\setminus x_i)}^2$
- 제 III 유형의 제곱 대한 -문제에서부분 로 계산한 것. $\eta^2$ $\text{SS}_\text{effect}/\text{SS}_\text{total}$ $R^2$

이들 모두는 밀접하게 관련되어 있지만 변수 간의 상관 관계 구조를 처리하는 방법이 다릅니다. 이 차이를 조금 더 잘 이해하기 위해 상관 관계가 3 개의 표준화 된 (평균 = 0, sd = 1) 변수 가 있다고 가정 합니다. 우리는 걸릴 종속 변수로하고 및 $x,y,z$ $r_{xy}, r_{xz}, r_{yz}$ $x$ $y$ $z$ 예측 자로. 모든 효과 크기 계수를 상관 관계로 표현하여 상관 구조가 각각에 의해 처리되는 방식을 명시 적으로 볼 수 있습니다. 먼저 OLS를 사용하여 추정 된 회귀 모델 의 계수를 나열합니다 . 계수 공식 : $x=\beta_{y}Y+\beta_{z}Z$ 예측 변수에 대한 제곱근은 다음과 같습니다.

\begin{aligned} β_{y} = \frac{r_{x y} - r_{y z} r_{z x}}{1 - r_{y z}^{2}} \\ β_{z} = \frac{r_{x z} - r_{y z} r_{y x}}{1 - r_{y z}^{2}}, \end{aligned}

$\begin{align}\beta_{y} = \frac{r_{xy}-r_{yz}r_{zx}}{1-r_{yz}^2}\\ \beta_{z}= \frac{r_{xz}-r_{yz}r_{yx}}{1-r_{yz}^2}, \end{align}$

R_{partial}^{2}

$R_\text{partial}^2$

\sqrt{R_{x y . z}^{2}} = \frac{r_{x y} - r_{y z} r_{z x}}{\sqrt{(1 - r_{x z}^{2}) (1 - r_{y z}^{2})}} \sqrt{R_{x z . y}^{2}} = \frac{r_{x z} - r_{y z} r_{y x}}{\sqrt{(1 - r_{x y}^{2}) (1 - r_{y z}^{2})}}

$\sqrt{R^2_{xy.z}} = \frac{r_{xy}-r_{yz}r_{zx}}{\sqrt{(1-r_{xz}^2)(1-r_{yz}^2)}}\\ \sqrt{R^2_{xz.y}} = \frac{r_{xz}-r_{yz}r_{yx}}{\sqrt{(1-r_{xy}^2)(1-r_{yz}^2)}}$

$\sqrt{\Delta R^2}$

\sqrt{R_{x y z}^{2} - R_{x z}^{2}} = r_{y (x . z)} = \frac{r_{x y} - r_{y z} r_{z x}}{\sqrt{(1 - r_{y z}^{2})}} \sqrt{R_{x z y}^{2} - R_{x y}^{2}} = r_{z (x . y)} = \frac{r_{x z} - r_{y z} r_{y x}}{\sqrt{(1 - r_{y z}^{2})}}

$\sqrt{R^2_{xyz}-R^2_{xz}}= r_{y(x.z)} = \frac{r_{xy}-r_{yz}r_{zx}}{\sqrt{(1-r_{yz}^2)}}\\ \sqrt{R^2_{xzy}-R^2_{xy}}= r_{z(x.y)}= \frac{r_{xz}-r_{yz}r_{yx}}{\sqrt{(1-r_{yz}^2)}}$

$\beta$ $\sqrt{\Delta R^2}$ $\sqrt{ R_\text{partial}^2}$ $\beta_{std}$

anova $R^2$ lm

Anovacar $F$ $t$ $F(1,n) = t^2(n)$ anova(mod)Anova(mod, type = 2)options(contrasts = c("contr.sum","contr.poly"))Anova(mod,type=3) $R^2$ etasq() $p$ $R^2$

신용

부분 상관에 대한 공식은 여기에 ttnphns answer : 다중 회귀 또는 부분 상관 계수? 그리고 둘 사이의 관계
반 부분 상관 관계 공식은 다음과 같습니다. https://www3.nd.edu/~rwilliam/stats1/x92.pdf
$R^2$

— 크리스 노박
소스

β = (X^{⊤} X) X^{⊤} y

$\beta = (X^\top X)X^\top y$

1

당신이 옳습니다, 제 3 형 SS와 t에 대한 계수 테스트는 기본적으로 동일한 F 테스트와 p 값을 제공한다는 것입니다.

— Chris Novak

2

@amoeba 몇 가지 계산을 수행 한 후 제안 사항을 포함하도록 내 답변을 편집하고 두 효과 크기의 차이점을 조금 명확히하고 OP의 답변을 더 잘 해결했습니다.

— Chris Novak

1

@amoeba 제안한대로 응답을 업데이트했습니다. 표준화 된 계수를 비교하는 것이 더 합리적입니다.

Δ R^{2}

$\Delta R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

1

감사합니다, @Chris, 귀하의 답변이 많이 향상되었으며 지금까지는 매우 훌륭합니다 (OP 인 경우 수락합니다). 나는 에 찬성하여 당신의 주장을 이해하지 못했습니다.

Δ R^{2}

$\Delta R^2$

R_{p}^{2}

$R^2_p$

Δ R^{2}

$\Delta R^2$

R_{p}^{2}

$R^2_p$

R^{2}

$R^2$

1

$1$

— amoeba는 Reinstate Monica라고

8

다른 답변과 의견에서 이미 설명 했듯이이 질문은 적어도 세 가지 혼란에 기초했습니다.

anova() $t$ Anova()car
$R^2$ $\beta_\mathrm{std}$
$R^2$ $\text{SS}_\text{effect}/(\text{SS}_\text{effect}+\text{SS}_\text{error})$ $\text{SS}_\text{effect}/\text{SS}_\text{total}$ $R^2$ $\text{SS}_\text{effect}$

이러한 혼란이 명확 해지면 예측 효과 크기 또는 중요도에 대한 가장 적절한 척도는 무엇인지에 대한 의문이 남아 있습니다.

R에는 relaimpo상대적으로 중요한 몇 가지 측정 값을 제공 하는 패키지 가 있습니다.

library(car)
library(relaimpo)
mod <- lm(education~income+young+urban, data=Anscombe)
metrics <- calc.relimp(mod, type = c("lmg", "first", "last", "betasq", "pratt", "genizi", "car"))

Anscombe귀하의 질문 과 동일한 데이터 세트를 사용하면 다음과 같은 메트릭이 생성됩니다.

Relative importance metrics: 

              lmg      last      first    betasq       pratt     genizi        car
income 0.47702843 0.4968187 0.44565951 0.9453764  0.64908857 0.47690056 0.55375085
young  0.14069003 0.1727782 0.09702319 0.1777135  0.13131006 0.13751552 0.13572338
urban  0.07191039 0.0629027 0.06933945 0.1188235 -0.09076978 0.07521276 0.00015460

이러한 메트릭 중 일부는 이미 논의되었습니다.

betasq로 구한 값과 동일한 값으로 제곱 된 표준화 계수입니다 lm().
first $\text{SS}_\text{effect}/\text{SS}_\text{total}$ $\text{SS}_\text{effect}$ anova()
last $R^2$ $\text{SS}_\text{effect}/\text{SS}_\text{total}$ $\text{SS}_\text{effect}$ $R^2$ anova()

$R^2$

relaimpo패키지 relaimpo가 수동으로 설치된 경우 4 가지 추가 메트릭 이 있습니다. 패키지 를 수동으로 설치 한 경우 하나 이상 (5 번째)을 사용할 수 있습니다 . . R을 온라인으로 실행하고 있으며 액세스 할 수 없으므로 누구나 수동으로 설치할 수 있다면 relaimpo위의 출력 에이 메트릭을 추가하여 완성도를 높이십시오.

두 가지 메트릭은 pratt음수 (나쁜) 일 수 있으며 genizi매우 모호합니다.

두 가지 흥미로운 접근법은 lmg및 car입니다.

$\text{SS}_\text{effect}/\text{SS}_\text{total}$ $\text{SS}_\text{effect}$

두 번째는 (Zuber & Strimmer, 2011)에 소개되었으며 많은 매력적인 이론적 특성을 가지고 있습니다. 예측 변수가 먼저 표준화 된 후 ZCA / Mahalanobis 변환으로 미백 된 후 (즉, 재구성 오류를 최소화하면서 미백 된) 제곱 표준화 된 계수입니다.

'젊음'이 '도시'에 대한 기여 비율은 $2:1$ lmg $878:1$ car

서지:

Ulrike Grömping 웹 사이트 에서 상대적 중요성 에 대한 언급 – 그녀는 저자입니다 relaimpo.
Grömping, U. (2006). R의 선형 회귀에 대한 상대적 중요성 : 패키지 relaimpo . 통계 소프트웨어 저널 17, 1 호.
Grömping, U. (2007). 분산 분해에 기반한 선형 회귀 분석의 상대 중요도 추정값 . 미국 통계 학자 61, 139-147.
Zuber, V. and Strimmer, K. (2010). CAR 점수를 사용한 고차원 회귀 및 변수 선택 . 유전학과 분자 생물학 10.1 (2011)의 통계적 응용 : 1-27.
Grömping, U. (2015). 회귀 모형에서 변수의 중요성 . 와일리 학제 간 검토 : 전산 통계, 7 (2), 137-152. (유료 벽 뒤에)

— 아메바의 말에 따르면 복원 모니카
소스

다양한 중요도 계수에 대한 추가 밸 러브 정보를 제공하는 매우 좋은 요약. BTW,이 R 엔진 pbil.univ-lyon1.fr/Rweb 또는 다른 엔진을 온라인으로 사용하고 있습니까?

— ttnphns

1

r-fiddle.org 사용 하지만 다른 것을 시도하지 않았으며 비교 방법을 모릅니다. 그래도 꽤 매끈 해 보입니다.

— amoeba는 Reinstate Monica라고

효과 크기에 대한 매우 명확한 요약 및 추가 정보 (+1)

— Chris Novak

4

당신은 썼습니다 :

내 질문은 : 부분 R² 또는 계수를 사용하여 각 요소가 결과에 얼마나 많은 영향을 미치는지를 보여야합니까?

여기서 두 가지를 혼동하지 않는 것이 중요합니다. 먼저, 모델 사양에 대한 문제가 있습니다. lm 알고리즘은 OLS 가정이 충족되었다고 가정합니다. 무엇보다도 이는 편견없는 추정의 경우 모델에서 NO 유의 한 변수가 누락 될 수 있음을 의미합니다 (모든 다른 회귀 변수와 관련이없는 경우는 드물지만).
따라서 모델을 찾을 때 R² 또는 조정 된 R²에 대한 추가 영향이 중요합니다. 예를 들어, 조정 된 R²의 개선이 멈출 때까지 회귀자를 추가하는 것이 적절하다고 생각할 수 있습니다. 이와 같은 단계적 회귀 절차에는 흥미로운 문제가 있지만 이는 주제가 아닙니다. 어쨌든 나는 당신이 당신의 모델을 선택한 이유가 있다고 가정합니다.

그러나 R²에 대한 이러한 추가 영향은 다중 변수로 인해 회귀 변수가 독립 변수에 미치는 실제 또는 전체 영향과 동일하지 않습니다. 상관되어 있습니다. 이제 실제 영향이 올바르게 표시되지 않습니다.

그리고 또 다른 문제가 있습니다. 추정치는 다른 모든 회귀 분석기가있는 완전한 모형에 대해서만 유효합니다. 이 모델이 아직 정확하지 않기 때문에 영향에 대한 논의는 의미가 없습니다. 또는 맞습니다. 회귀자를 제거 할 수없고 여전히 OLS 방법을 사용할 수 있습니다.

모델과 OLS 사용이 적절합니까? 그렇다면 추정값이 귀하의 질문에 답변합니다-회귀 및 종속 변수에 대한 변수의 영향을 문자 그대로 가장 잘 추측합니다.
그렇지 않은 경우 첫 번째 작업은 올바른 모델을 찾는 것입니다. 이를 위해 부분 R²을 사용하는 것이 좋습니다. 모델 스펙 또는 단계적 회귀에 대한 검색은이 포럼에서 많은 흥미로운 접근법을 생성합니다. 작동하는 것은 데이터에 따라 다릅니다.

— IMA
소스

1

네 답변을 감사합니다! "R²에 대한 이러한 추가 영향이 회귀 변수가 독립 변수에 미치는 실제 영향 또는 전체 영향과 동일하지 않다"는 말은 확실하지 않습니다. 예를 들어 relaimpo cran.r-project.org/web/packages/relaimpo/relaimpo.pdf 패키지 는 "선형 모델에서 상대적 중요성을 평가하기 위해"부분 R²을 사용합니다.

— robert

1

R²을 모델 선택에만 사용해야한다는 관점을 참조 할 수 있다고 생각하십니까?

— robert

1

@robert : Raison d' etre relaimpo는 IMA가 제공하는 이유 때문에 부분 R ^ 2에 대한 대안을 제공하는 것입니다!

— Scortchi-Monica Monica 복원

1

@ Scortchi :와, relaimpo패키지 매뉴얼을 본 후 선형 회귀 분석에서 예측 변수의 상대적 중요성을 정량화하는 데는 다양한 접근법 이 있다는 것을 깨달았습니다 . 나는 현재 거기에 연결된 몇 가지 논문을 살펴보고 있습니다 ( 이 2010 프리 프린트 는 지금까지 꽤 좋아 보입니다). 현상금을 제공했을 때이 문제가 너무 복잡하다는 것을 몰랐습니다. CV에서 제대로 논의되지 않은 것 같습니다. 모호한 주제입니까? 그렇다면 왜 그렇습니까?

— amoeba는 Reinstate Monica

2

@amoeba : 커프스 대답은 "예측 자의 상대적 중요성"이 대부분의 목적에 중요하지 않다는 것입니다. 당신이 만족하는 모델을 가지고 있다면, 하루에 한 개의 담배를 피우는 것과 같은 것이 심장 마비의 위험성 측면에서 다섯 개의 햄버거를 먹는 것과 같다고 말할 수 있습니다. 중요성은 무엇에 대한 실질적인 해석에서 비롯됩니다 당신은 모델링하고 있습니다; 모형을 비교하는 경우 전체 모형을 비교 합니다 (예 : 값 비싼 예측 변수 쌍이 있거나없는 모형)-예측 검정력이 상당히 나눌 수있는 방법에 대해 걱정할 필요가 없습니다.

— Scortchi-Monica Monica 복원

3

예를 들어, 선형 회귀 계수와 부분 상관의 차이에 대해 이것을 읽을 수 있습니다 .

그러나 질문에 표현 된 혼란은 또 다른 본성 인 것 같습니다. 이 패키지 또는이 통계 패키지에서 사용되는 기본 제곱합 유형에 관한 것 같습니다 (사이트에서 반복적으로 논의되는 주제). 선형 회귀 분석은 ANOVA Type III SS 계산에서 사용되는 것을 사용합니다. 많은 ANOVA 프로그램에서 기본 옵션이기도합니다. 에서 R기능 anova, 그것은 기본 계산은 유형 I SS (예측 인자는 모델에 지정된 순서에 의존하는 "연속 SS")이다 (나는 그냥 가정, 그래서 나는, R 사용자 아니에요) 나에게 나타납니다. 따라서 변수를 표준화 ( "스케일") 할 때 관찰하고 사라지지 않은 불일치는 기본 유형 I 옵션으로 분산 분석을 지정했기 때문입니다.

다음은 데이터와 함께 SPSS에서 얻은 결과입니다.

여기에 이미지 설명을 입력하십시오

SS 출력 유형에 관계없이 매개 변수 (회귀 계수)가 동일한 인쇄물에서 선택할 수 있습니다. SS 에펙트 / (SSeffect + SSerror)와 = 부분 R- 제곱 인 부분 에타 제곱은 SS 유형 인 경우에만 효과 테이블과 계수에서 완전히 동일합니다. III입니다. SS 유형이 I 인 경우 세 개의 예측 변수 중 "urban"만 마지막 값이 동일합니다 (.169). 예측 변수의 입력 순서에서 마지막이기 때문입니다. 유형 III SS의 경우 회귀에서와 같이 입력 순서는 중요하지 않습니다. 그건 그렇고, 불일치는 p- 값에서도 강요됩니다. "Sig"열에 소수점 이하 3 자리 만 있기 때문에 표에 표시되지 않지만,

분산 분석 / 선형 모델에서 다른 "SS 유형"에 대한 자세한 내용을 읽을 수 있습니다. 개념적으로, 유형 III 또는 "회귀"유형의 SS는 기본적이고 기본적입니다. 다른 유형의 SS (I, II, IV, 훨씬 더 많이 존재)는 상관 예측 변수의 상황에서 회귀 모수가 허용하는 것보다 효과를 더 포괄적으로, 낭비없이 덜 추정하는 특수 장치입니다.

연구의 목적이 미래의 모델을 만드는 것이 아니라면 일반적으로 효과 크기와 p- 값은 매개 변수와 p- 값보다보고하는 것이 더 중요합니다. 매개 변수를 사용하면 예측할 수 있지만 "영향"또는 "효과"는 "선형 예측의 강도"보다 더 넓은 개념 일 수 있습니다. 영향 또는 중요도를보고하기 위해 부분 Eta 제곱 외에 다른 계수가 가능합니다. 하나는 탈퇴 계수입니다. 예측 변수의 중요도는 예측 변수가 모형에서 제거 된 정규 제곱의 잔차 합이며 모든 예측 변수의 중요도 값이 1이되도록 정규화됩니다.

— ttnphns
소스

+1, 토론에 참여해 주셔서 감사합니다. 용어적인 질문이 있습니다. "부분 R 제곱"은 SSeffect / (SSeffect + SSerror)로 정의됩니다. SSeffect / SStotal의 이름은 무엇입니까? 내가 이해하는 한 (내가 틀렸다면 정정하십시오), 유형 III SS 분해를 사용하면이 SSeffect / SStotal은 반응과이 예측 변수 사이의 제곱 부분 상관과 같습니다 (다른 모든 예측 변수에 대한 제어). 이 수량에 이름이 있습니까? 부분 R2는 부분 에타 제곱과 유사하지만 왜 에타 제곱 자체의 유사체에 대한 이름이 없는가? 나는 이것으로 혼란스러워합니다.

— amoeba는

죄송합니다. 위의 일부 넌센스를 작성했다고 생각합니다. 제곱 부분 상관은 SSeffect / (SSeffect + SSerror)입니다. 즉, 정확히 부분 R2입니다. 맞습니까? 여전히 SSeffect / SStotal (OP가 원래 질문에서 계산하려고 시도한 것)을 호출하는 방법에 대한 질문은 여전히 남아 있습니다. 그냥 제곱이라고 부를까요? 또는 "파티션 된 R2"(유형 III SS의 경우, 이러한 "파티션"은 총 R2와 합산되지 않습니다)를 알고 있습니까?

— amoeba는

1

예, SSeffect / SStotal은 단순히 제곱입니다. 그것은 특정 모델에서 예측 변수의 제곱입니다 (예측 변수가 연속 예측 변수의 경우 모델 = 0 차 피어슨 r ^ 2에 하나 일 때 한계 에타 제곱 = 에타 제곱과 혼동하지 마십시오).

— ttnphns

1

정확히 그렇습니다. 부품 상관 관계는 (특정 인스턴스) 에타입니다. 따라서 모델 부분 eta 에서 해당 eta를 호출하는 것이 적절 하다고 생각합니다 . "part"또는 "semipartial"eta라는 용어가 나오는 텍스트는 기억 나지 않습니다. 당신이 그것을 발견하면 알려 주시기 바랍니다.

— ttnphns

1

예; 왜 같은 생각입니다. 그러나 r, 부분 r, 반 부분 r은 대응하는 에타의 특별한 경우이다. 그러나이 두 용어 사이의 중요한 용어 적 차이는 문맥 상으로, 전체 범주 형 (더미) "비선형"효과 외에 숫자로 코딩 된 것처럼 예측 변수의 선형 (또는 다항식) 효과를 추가 할 때 발생합니다. 여기서 우리는 3 가지 효과를 보여줍니다 : 결합 된 Etasq = 선형 Rsq + 선형으로부터의 편차.

— ttnphns