다중 회귀 분석에서 예측 변수 사이에 r 제곱을 나누는 방법은 무엇입니까?


16

방금 저자가 두 개의 예측 변수로 다중 회귀 분석을 수행 한 논문을 읽었습니다. 전체 r- 제곱 값은 0.65였다. 그들은 두 예측 변수 사이에 r 제곱을 나누는 테이블을 제공했습니다. 테이블은 다음과 같습니다.

            rsquared beta    df pvalue
whole model     0.65   NA  2, 9  0.008
predictor 1     0.38 1.01 1, 10  0.002
predictor 2     0.27 0.65 1, 10  0.030

이 모델 R에서 mtcars데이터 세트 를 사용하여 실행 한 경우 전체 r 제곱 값은 0.76입니다.

summary(lm(mpg ~ drat + wt, mtcars))

Call:
lm(formula = mpg ~ drat + wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.4159 -2.0452  0.0136  1.7704  6.7466 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   30.290      7.318   4.139 0.000274 ***
drat           1.442      1.459   0.989 0.330854    
wt            -4.783      0.797  -6.001 1.59e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.047 on 29 degrees of freedom
Multiple R-squared:  0.7609,    Adjusted R-squared:  0.7444 
F-statistic: 46.14 on 2 and 29 DF,  p-value: 9.761e-10

두 예측 변수 사이에 r 제곱 값을 어떻게 나눌 수 있습니까?


1
이 게시물 를 분할하는 방법에 대한 정보를 제공합니다 . R2
COOLSerdash

8
이 의견은 간단하고 부적절하게도 이것이 위험하지 않다면 헛된 것으로 여겨지는 관점을 나타낼 수 있습니다. 모델의 성공 또는 실패는 예측 자 (및 특정 기능 형태, 상호 작용 항 등)에 의한 팀 노력의 결과로 가장 잘 간주되며 그렇게 판단됩니다. 당연히, 우리 대부분은 예측 변수의 상대적 중요성에 관심이 있으며 말도 안되지만, 그것을 정량화하려는 시도는 그러한 운동에 대한 기술적 및 철학적 한계에 대한 완전한 진술을 정확히 수반해야합니다.
닉 콕스

답변:


5

두 개의 개별 상관 관계를 가져와 제곱하거나 두 개의 개별 모델을 실행하여 R ^ 2를 얻을 수 있습니다. 예측 변수가 직교 인 경우에만 요약됩니다.


2
'직교 (orthogonal)'는 두 예측 변수가 서로 관련이 없어야한다는 의미입니까?
luciano 2016 년

3
그렇습니다. 상관 관계가 없습니다. 총계를 합한 유일한 방법입니다.
John

12

John의 답변 외에도 각 예측 변수에 대한 제곱 반 부분 상관 관계 를 얻을 수 있습니다 .

  • 상관없는 예측 자상관되지 않은 예측 : 예측자가 직교 인 경우 (즉, 상관되지 않은), 제곱 반-부분 상관은 제곱 0 차 상관과 동일합니다.
  • 상관 예측 자 : 예측 변수가 상관되어 있으면, 제곱 반-부분 상관은 주어진 예측자가 설명하는 고유 한 분산을 나타냅니다. 이 경우, 제곱 반-부분 상관의 합은 R 2 미만입니다R2 입니다. 이 나머지 설명 분산은 둘 이상의 변수로 설명 된 분산을 나타냅니다.

R 함수를 찾고 있다면 spcor()ppcor패키지로 제공된다.

다중 회귀 분석에서 변수 중요도 평가에 대한 광범위한 주제를 고려할 수도 있습니다 (예 : relaimpo 패키지에 대한이 페이지 참조 ).


3

귀하의 질문에 태그를 추가했습니다 . 여기의 일부입니다 태그 위키의 .

일반적인 방법 중 하나는 모델에 회귀자를 하나씩 추가하고 각 회귀가 추가 될 때 의 증가를 기록하는 것 입니다. 이 값은 이미 모델에있는 회귀 분석기에 의존하기 때문에 회귀 분석가가 모델에 진입 한 다음 주문에 대한 평균을 구할 수있는 모든 가능한 순서에 대해이를 수행해야합니다. 이것은 작은 모델에는 가능하지만 가능한 차수가 p 이기 때문에 큰 모델에는 계산적으로 금지됩니다 ! p를 위해R2p!p 예측.

Grömping (2007, American Statistician ) 은 변수의 중요성을 평가하는 맥락에서 문헌에 대한 개요와 포인터를 제공합니다.


y ~ a + by ~ b + ay ~ ay ~ a + by ~ by ~ a + by ~ b + a2p

R2aabR2y~1y~abR2y~by~a+b
S. Kolassa-복원 모니카

Right, yes, I see. I mis-read the sentence. You need to evaluate 2p models, but also 2! model differences.
naught101

@naught101: almost correct. There are 2p=q=0p(pq) models ((pq) models containing q out of the p predictors). Except for the trivial model (q=0), you want to compare each model with q predictors with another q different submodels, each one of which we arrive at by removing one predictor, so we have q=1pq(pq) comparisons. (Each model appears multiple times here, and indeed we have more comparisons than 2p models.) And if we have interactions, things become more complicated yet.
S. Kolassa - Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.