R의 lm () 출력 해석


234

R의 도움말 페이지는 그 숫자의 의미를 알고 있다고 가정하지만 그렇지 않습니다. 나는 모든 숫자를 실제로 직관적으로 이해하려고 노력하고 있습니다. 나는 출력을 게시하고 내가 찾은 것에 의견을 줄 것입니다. 내가 생각하는 것을 쓰면 실수가있을 수 있습니다. 주로 계수의 t- 값이 무엇을 의미하고 왜 잔류 표준 오차를 인쇄하는지 알고 싶습니다.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

이것은 잔차의 5 점 요약입니다 (평균은 항상 0입니다)? 큰 특이 치가 있는지 신속하게 확인하기 위해 숫자를 사용할 수 있습니다 (여기서 추측하고 있습니다). 잔차가 정규 분포와 거리가 먼 경우 (여기서 정규 분포) 여기에서 이미 볼 수 있습니다.

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

예상 최소 제곱 회귀 분석에 의해 계산. 또한 표준 오차는 σ β i 입니다. 이것이 어떻게 계산되는지 알고 싶습니다. 나는 t- 값과 해당 p- 값이 어디에서 왔는지 전혀 모른다. 나는 알고있다 β는 분산 정상적인해야하지만, 어떻게 t 값은 계산합니까?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

입니다. 그러나 우리는 왜 그것을 계산합니까?1npϵTϵ

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

, 즉 n i = 1 ( ^ y i ˉ y )2R2=sy^2sy2 . 점이 직선에있는 경우 비율은 1에 가까우며 임의의 경우 0입니다. 조정 된 R 제곱은 무엇입니까?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

이전의 단일 β i 뿐만 아니라 전체 모델에 대한 F 및 p . F 값은 S 2 Yβisy^2ϵiβ


잔차가 정규성을 크게 벗어나지 않는 이유는 무엇입니까?
nico

@nico : @Alexx Hardt가 가상적으로 말하고 있다고 생각합니다. 즉 한 번 할 수 잔차가 정상에서 벗어난 것을 알아보기 위해 다섯 개 숫자 요약을 사용
개빈 심슨

@ 개빈 심슨 : 네 말이 맞아, 나는 문장을 잘못 읽었다. 내 이전 의견을 무시하십시오.
nico

9
사소한 퀴즈 : 5 개의 Quantile만으로 정규성 또는 비정규성에 대해 말할 수 없습니다. 이 요약을 바탕으로 말할 수있는 것은 추정 잔차가 대략 0에 대해 대칭인지 여부입니다. 보고 된 Quantile을 추정 된 잔차 표준 오차로 나누고이 값을 N (0,1)의 각 Quantile과 비교할 수 있지만 QQ-Plot을 보는 것이 더 의미가 있습니다.
fabians

5
FSSmodel/SSerrorMSmodel/MSerrorF

답변:


202

다섯 포인트 요약

예, 아이디어는 배포판을 빠르게 요약하는 것입니다. 평균에 대해 대략 대칭이어야하고, 중앙값은 0에 가까워 야하고, 1Q와 3Q 값은 거의 비슷한 값이어야합니다.

βi^s

βi^βi^

βi^

t

tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

coef(mod)βi^sqrt(diag(vcov(mod)))σi^

|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

ttttt

잔차 표준 오차

σσσσ2

R2

R2

1(1R2)n1np1

R2R2R2R2R2

F

FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2p- 값이 동일한 이유입니다. 이 동등성은이 간단한 경우에만 적용됩니다.


5
@Gavin (+1) 멋진 일러스트로 대단한 반응!
chl

2
좋은 작업. t 값 계산과 관련하여 명확하지 않은 한 가지 사항 : sqrt (diag (vcov (mod)))는 추정값의 SE를 생성합니다. 이들은 모델 요약에 출력되는 것과 동일한 SE입니다. t = 추정 / 추정이라고 말하는 것이 더 쉽고 명확합니다. 그런 의미에서 다른 t 값과 다르지 않습니다.
Brett

2
Ft2

2
@어치; 감사. 나는 그 동등성을 언급하는 것에 대해서도 생각했다. 너무 세밀한 지 확실하지 않은가? 나는 이것에 뭔가를 광고 할 것입니다.
Gavin Simpson

2
"표준 수학적 방정식을 사용하여 계산하지 않을 것"그들은 무엇을 사용할 것인가?
SmallChess

0

Ronen Israel과 Adrienne Ross (AQR)는이 주제에 대해 매우 훌륭한 논문을 작성했습니다 : 측정 요인 노출 : 사용 및 남용 .

요약하면 (8 페이지 참조)

  • R2
  • t- 통계량이 2보다 크면 베타 추정치가 통계적으로 0과 다르다는 95 %의 확신 (또는 5 %의 확률로 우리가 틀렸다)을 말할 수 있습니다. 다시 말해, 포트폴리오에 요인이 많이 노출되어 있다고 말할 수 있습니다.

R의 lm()요약은 p- 값을 계산합니다 Pr(>|t|). p- 값이 작을수록 요인이 더 중요합니다. P- 값 = 0.05는 합리적인 임계 값입니다.


6
"t- 통계량이 2보다 크면 베타 추정치가 통계적으로 0과 다르다"고 말할 수 있습니다 ( "5 % 확률로 잘못됨"). . 11], stats.stackexchange.com/questions/311763stats.stackexchange.com/questions/26450 에서 논의된다 .
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.