않습니다


18

r 제곱 값에 p 값 이 있는지 이해하려고 애 쓰고 있는 것 같습니다 .

내가 알고있는 것처럼, 데이터 포인트의 세트와 선형 상관 관계에 r 이르기까지 값을 가질 수 11 이 값을, 그것이 무엇이든하는 수 p 경우 어떤 쇼 - 값을 큰 차이가 (즉, 두 변수간에 선형 상관 관계가있는 경우).0r0

선형 회귀로 넘어 방정식 설명되는 함수를 데이터에 적합시킬 수 있습니다 . 및 (절편 및 기울기)에도 이있어서 과 크게 다른지 보여줍니다 .a b p 0Y=a+bXabp0

지금까지 올바른 모든 것을 이해 가정하고 있습니다 위한 - 값 과 대한 - 값 단지 같은 일이? 그렇다면 값 을 갖는 제곱이 아니라 오히려 또는 것을 말하는 것이 맞 습니까?r p b r p r bprpbrprb

답변:


14

다른 사용자가 다수의 (올바른) 의견 또한 지적하면 것을 p 대한 -value r2 받는 사람과 동일 p 세계에 대한 - 값 F 당신은 또한 얻을 수 테스트, 노트 p 과 관련된 - 값 r2 " 직접 "사실 사용 r2 귀무 가설 하에서 같이 분포 Beta(vn2,vd2), 여기서,vnvd연관된 각각에 대한 자유도의 분자와 분모도이다F통계량이.

베타 배포판 Wikipedia 항목의 다른 배포판 에서 파생 된 세 번째 글 머리 기호 는 다음과 같이 알려줍니다.

경우 Xχ2(α)Yχ2(β) 독립 후 .XX+YBeta(α2,β2)

우리는 그 X에 를 쓸 수 있습니다r2 형식.XX+Y

하자 변수에 대한 제곱의 총합이 될 Y는 , S S E는 의 회귀에 대한 제곱 된 에러의 합 Y 다른 변수, 및 S S R은 , 인 일 "감소 제곱의 합" S S R = S S Y - S S E . 그런 다음 r 2 = 1 S S ESSYYSSEYSSRSSR=SSYSSE 물론, 제곱합 인SSRSSE는각각vnvd자유도를가진χ2로분포됩니다. 따라서 r2~베타(vn

r2=1SSESSY=SSYSSESSY=SSRSSR+SSE
SSRSSEχ2vnvd (물론, 나는 두 카이-제곱이 독립적이라는 것을 보여주지 않았습니다. 아마도 주석가가 그것에 대해 말할 수 있습니다.)
r2Beta(vn2,vd2)

R 데모 (@gung에서 코드 차용) :

set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)

# Pearson's product-moment correlation
# 
# data:  x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.2043606  0.6312210
# sample estimates:
#       cor 
# 0.2618393 

summary(lm(y~x))

# Call:
#   lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -1.6399 -0.6246  0.1968  0.5168  2.0355 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   4.6077     0.4534  10.163 6.96e-09 ***
# x             1.1121     0.9662   1.151    0.265    
# ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared:  0.06856,  Adjusted R-squared:  0.01681 
# F-statistic: 1.325 on 1 and 18 DF,  p-value: 0.2648

1 - pbeta(0.06856, 1/2, 18/2)

# [1] 0.2647731

6

이 네 번째 (!) 답변이 더 명확 해지기를 바랍니다.

간단한 선형 회귀 분석에는 세 가지 동등한 테스트가 있습니다.

  1. 공변량 X 의 제로 모집단 기울기에 대한 t- 검정X
  2. 와 반응 Y 사이의 제로 모집단 상관에 대한 t- 검정XY
  3. 제로 모집단 R- 제곱에 대한 F- 검정, 즉 의 변동성에 대해서는 아무것도 X 로 설명 할 수 없습니다 .YX

세 가지 테스트 모두 Y 사이의 선형 연관성을 확인 하고 다행스럽게도 (!) 동일한 결과를 가져옵니다. 그들의 테스트 통계는 동일합니다. 검정 1과 2는 제곱 검정 통계량으로 검정 3의 샘플링 F- 분포에 해당하는 n - 2 df 의 학생 분포를 기반으로합니다 .XYn2

R의 간단한 예 :

# Input
set.seed(3)

n <- 100
X <- runif(n)
Y <- rnorm(n) + X

cor.test(~ X + Y) # For test 2 (correlation)

# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0

# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)      

# Output (partial)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.03173    0.18214  -0.174  0.86204   
X            1.02051    0.32426   3.147  0.00218 **
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared:  0.09179,   Adjusted R-squared:  0.08253 
F-statistic: 9.905 on 1 and 98 DF,  p-value: 0.002184

보시다시피, 세 가지 테스트는 동일한 p 값 0.00218을 산출합니다. 테스트 3은 출력의 마지막 행에있는 것입니다.

따라서 R- 제곱에 대한 F- 검정은 매우 빈번하지만 R- 제곱에 대한 검정으로 해석하는 통계학자는 많지 않습니다.


5

당신은 저를 잘 이해하고있는 것 같습니다. 우리는 얻을 수있는 대한 - 값 R 2 , 그러나의 (비 확률) 함수이기 때문에 r은피의 들과 동일하다. pr2rp


나는 그렇게 생각하지 않습니다. 에 대한 추론을 연결 R 2 [정보 추론에 αβ OLS에서, ρ는 경우에 중요하다 β는 관계없이 0이 아닌 α . 그러나 α 또는 β 가 0이 아닌 경우 r 2 는 중요합니다 . 이것은 각각의 테스트가 평가하는 것을 시각화하는 데 도움이됩니다. ρr2αβρβαr2αβ
AdamO

1
@AdamO, 나는 당신의 의견의 주장을 따를 수 없습니다. R의 시도에서 아래의 마이클 메이어의 게시물과 유사한 set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x)). r의 p는 .265입니다. a의 p가 a 인 경우에도 b 및 전역 F 테스트의 p는 동일합니다 6.96e-09.
gung-복원 Monica Monica

정확히 내 요점. r 2 와 다르고 p- 값은 동일하지 않습니다. R 2 의 함수일 수있다 R 하지만 심지어 단조 함수 아니다. R 2 때 중요 할 수 있습니다 r은 없습니다. r 2 는 무엇을 측정합니까? OLS 추세선을 그리고 잔차를 계산 한 후의 잔차 표준 오차입니다. 귀하의 예에서 잔차 분산이 무조건 Y 분산 보다 작 습니까? 물론. r 2rr2pr2rr2rr2Yr2그때 중요합니다. 부트 스트랩을 사용하여 작동 특성을 계산할 수 있으며 분산 분석과 일반 최소 제곱 간의 연결도 문제를 해결합니다.
AdamO

4
귀무 가설 하의 r 2B e t a ( v n으로 분포 된다는 사실을 사용하여 "직접" r 2 와 연관된 값을 얻을 수도 있습니다.pr2r2, 여기서,V, NV의D는연관된 각각에 대한 자유도의 분자와 분모도이다F통계량이. (여기에서 세 번째 정체성 :en.wikipedia.org/wiki/…참조) 따라서 @gung의 예제 데이터를 사용하여입력하면을 얻습니다. Beta(vn2,vd2)vnvdFR1 - pbeta(0.06856, 1/2, 18/2)0.2647731
Jake Westfall

4
@AdamO, 나는 아직도 이해하지 못한다. 그들은 둘 다 .265, 어떻게 동일하지 않습니까?
gung-복원 Monica Monica

4

피어슨 상관 검정 대한 검정 통계량을 도출하는 방법에는 여러 가지가 있습니다 . p- 값 을 얻으려면 귀무 가설 하에서 검정 통계량의 검정 및 표본 추출 분포가 모두 필요하다는 것을 강조하는 것이 좋습니다. 제목과 질문에 Pearson 상관 관계와 "분산 설명" r 2 사이에 약간의 혼동이있는 것 같습니다 . 먼저 상관 계수를 고려할 것입니다.ρpr2

내가 아는 Pearson 상관 관계를 테스트하는 "최상의"방법은 없습니다. Fisher의 Z 변환 은 쌍곡선 변환을 기반으로하는 방식 중 하나이므로 추론이 조금 더 효율적입니다. 이것은 확실히 "좋은"접근 방법이지만 슬픈 것은이 매개 변수에 대한 추론이 연결에 대한 기울기 매개 변수 대한 추론과 일치 한다는 것입니다.β

통계학자가 (전통적으로) 테스트를 선호하는 이유는 우리 "최고의"테스트, 즉 선형 회귀 분석을하기 때문입니다. 이는 BLUE 추정기입니다. 현대 통계 시대에, 우리는 테스트가 더 이상 "최고"인지 신경 쓰지 않지만 선형 회귀에는 두 변수 사이의 연관성을 결정하는 데 계속 사용되는 것을 정당화하는 다른 환상적인 속성이 많이 있습니다. 일반적으로 직감은 옳습니다. 그것들은 본질적으로 같은 것이며, 우리 는보다 실질적인 연관 척도로 β에 주목합니다 .ββ

기울기와 절편의 함수이다. 이 값 중 하나가 0이 아닌 경우 r 2 는 선형 매개 변수가 0 인 경우 예상되는 분포와 비교하여 식별 가능한 샘플링 분포를 가져야합니다. 그러나 null 하에서 r 2의 분포를 도출 하고 r 2 와 비교r2r2r2r2일부 대안 가설 하에서이 테스트는 우리가 원하는 것을 탐지 할 수있는 많은 힘을 가지고 있다는 확신을주지 않습니다. 그냥 직감. "최고의"추정기로 다시 돌아가서, OLS는 기울기와 절편 모두에 대한 "최상의"추정치를 제공하므로 모델 모수를 직접 테스트하여 동일한 (있는 경우) 연관성을 결정하는 데 우리의 검정이 적어도 우수하다는 확신을 가지고 있습니다. . 나를 위해, 공동으로 테스트 β OLS와 약 어떤 테스트보다 우수 연구 2 (아마도) 비 중첩 예측 모델링 보정 응용 프로그램의 드문 경우를 제외하고 ...하지만 BIC는 아마 시나리오에서 더 나은 측정 될 것이다 어쨌든.αβr2


1
" 는 기울기와 절편의 함수입니다." 어쩌면 내가 뭔가를 잃어 버렸지 만 ... 경사면의 기능이 아닌가? 구체적인 데모를 제공 할 수 있습니까? r2
Jake Westfall

확실한. 관측 된 데이터가 추세선과 완벽하게 일치하면 정확히 일치 함을 기억하십시오. 변동성이없고 0이 아닌 절편이있는 "평평한 반응"데이터를 고려하여 모든 튜플 은 모든 i { 1 , 2 , n }에 대해 ( x i , β 0 ) 형식을 취합니다 . 암시 된 바와 같이 r 2 = 1 이다. 결정 계수는 선형 방정식에 대한 예측 능력의 합리적인 요약 역할을하며, 이러한 예측을 얻으려면 기울기와 절편이 필요합니다. r2=1(xi,β0)i{1,2,n}r2=1
AdamO

1

prr2rr2p

pbb0 then you conclude that there is a linear relationship between the variables. The r or r2 then tells you how well the model explains the variation in the data. If r2 is low, then your independent variable isn't helping to explain very much about the dependent variable.

A p-value for a tells us if the intercept is statistically significantly different from 0 or not. This is of varying usefulness, depending on the data. My favorite example: if you do a linear regression between gestation time and birth weight you might find an intercept of, say, 8 ounces that is statistically different from 0. However, since the intercept represents a gestation age of 0 weeks, it doesn't really mean anything.

If anyone does regularly calculate p-values for an r2 I'd be interested in hearing about them.


4
Take a closer look at the output of your favorite regression command: it should report an F statistic and a p-value for it. That is also the p-value for the R2, because F and R2 are directly and monotonically related. For ordinary regression with n data, F=(n2)R2/(1R2). Its p-value will be the p-value for the slope. Therefore if you have ever used a p-value for b in ordinary regression, you have used a p-value for R2.
whuber

In practice it seems like people do not think in terms of the significance of r or r^2. What might be more useful is a confidence interval around them.
N Brouwer
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.