내 질문은 다른 질문 에 대한 의견에서 @whuber와의 토론에서 자랐습니다 .
구체적으로 @whuber의 의견은 다음과 같습니다.
놀랍게도 한 가지 이유는 상관 관계 테스트와 회귀 기울기 테스트의 기본 가정이 다르기 때문에 상관 관계와 기울기가 실제로 같은 것을 측정한다는 것을 이해하더라도 p- 값이 동일한 이유는 무엇입니까? 이것은 과 가 수치 적으로 같아야하는 것보다 이러한 문제가 어떻게 더 심화되는지를 보여줍니다 .
이것은 그것에 대한 내 생각을 얻었고 다양한 흥미로운 답변을 발견했습니다. 예를 들어, 나는 " 상관 계수의 가정 "이라는 질문을 찾았 지만 위의 설명을 어떻게 명확하게 할 수 있는지 알 수 없습니다.
간단한 선형 회귀 분석에서 Pearson의 과 기울기 의 관계에 대한 더 흥미로운 답변을 찾았 지만 (예를 들어 여기 및 여기 참조 ) @ whuber가 자신의 의견에서 언급 한 것에 대해 대답하지 않는 것 같습니다 (적어도 명백하지 않음) 나에게).
질문 1 : 상관 테스트와 회귀 기울기 테스트의 기본 가정은 무엇입니까?
두 번째 질문에 대해서는 다음 출력을 고려하십시오 R
.
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
그리고 cor.test()
함수 의 출력 :
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
lm()
와 cov.test()
출력에서 볼 수 있듯이 Pearson의 상관 계수 과 기울기 추정값 ( )은 각각 0.96과 0.485가 크게 다르지만 t- 값과 p- 값은 동일합니다.
그런 다음 과 β 1 의 t- 값을 계산할 수 있는지 확인하려고했는데 r 과 β 1 이 다르 더라도 동일 합니다. 그리고 그것은 내가 붙어있는 곳입니다 .
와 의 총 제곱합을 사용하여 간단한 선형 회귀로 기울기 ( )를 계산합니다 .
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
회귀 기울기의 최소 제곱 추정값 ( 's R Book 1st edition , 393 페이지 에 이에 대한 증거가 있음 ).
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
대한 표준 오차를 계산하십시오 .
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
그리고 대한 t- 값과 p- 값 :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
이 시점에서 내가 모르는 것은 2 번 질문 입니다 .β 1 대신 을 사용하여 동일한 t- 값을 계산하는 방법입니다 (아마도 아기 단계)?
나는 cor.test()
대체 가설이 실제 상관 이 0과 같지 않은지 ( cor.test()
위 출력 참조) 인지의 여부에 따라 피어슨 상관 계수 "피어슨 상관 계수의 표준 오차"로 나눈 것과 같은 것을 예상 할 것입니다 . 위) ?! 그러나 표준 오류는 무엇이며 왜됩니까?b1/se.b1
어쩌면 이것은 상관 관계 테스트와 회귀 기울기 테스트의 기본이되는 전술 한 가정과 관련이 있을까요?!
편집 (2017 년 7 월 27 일) : @whuber가 질문 1 (그리고 부분적으로 질문 2 , 그의 답변 아래 주석 참조)에 대해 매우 자세한 설명을 제공했지만 , 나는이 두 게시물 ( here 및 here )이 더 깊이 파고 들었 습니다. 특정 표시 표준 오류 에 대한 대답을 잘 작동, 질문 2 에있는 t- 값 주어진 재현하는 것입니다, R을 :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956