선형 회귀 계수의 신뢰 구간은 정규 분포 또는

간단한 ANOVA와 같은 선형 모델을 만들어 봅시다.

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

결과는 다음과 같습니다.

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

이제이 매개 변수의 신뢰 구간을 추정하기 위해 두 가지 방법을 시도합니다

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

질문 :

추정 된 선형 회귀 계수의 분포는 무엇입니까? 정상 또는 ? $t$
두 방법 모두 다른 결과를 생성하는 이유는 무엇입니까? 정규 분포와 올바른 SE를 가정하면 두 방법 모두 동일한 결과를 기대합니다.

대단히 감사합니다!

데이터 ~ 0 + 사실

답변 후 수정 :

대답은 정확합니다. 이것은 정확히 같은 결과를 줄 것입니다 confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval

— 궁금한
소스

관련 : stats.stackexchange.com/questions/111559/…

— Curious

(1) 에러가 정규 분포와 그 편차가되어 있지 후 공지

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$ 갖는다

것을 귀무 가설하에 - 분포

진정한 회귀 계수이다. 의 기본은 테스트하는 것입니다

소위,

통계량보고 만있다

t

$t$

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

참고 일부 규칙 조건에서, 위의 통계는 항상, 즉 점근 적 정규 분포에 관계없이 오류가 정상인지 또는 오류 분산을 알고 있는지.

(2) 다른 결과를 얻는 이유는 정규 분포의 백분위 수가 분포의 백분위 수와 다르기 때문입니다 . 따라서 표준 오차 앞에서 사용하는 승수가 다르므로 신뢰 구간이 달라집니다. $t$

구체적으로, 정규 분포를 사용한 신뢰 구간은

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

여기서 는 정규 분포 의 분위수입니다. 의 표준 경우 $z_{\alpha/2}$ $\alpha/2$ 신뢰 구간 및 . 분포에 따른 신뢰 구간은 $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

여기서 승수 는 자유도를 갖는 분포 의 Quantile을 기반으로합니다. 여기서 은 표본 크기이고 는 예측 변수의 수입니다. 언제 $t_{\alpha/2,n-p}$ $t$ $n-p$ $n$ $p$ 크면, 와 거의 동일하다. $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

다음은 샘플 크기에 대한 곱셈기 의 플롯입니다. $t$ $5$ $300$ $p=1$ $t$ $z$

여기에 이미지 설명을 입력하십시오

— 매크로
소스

네!! 일의 좋은 조각!! (+1)

— gui11aume 2016 년

매크로, 답변 주셔서 감사합니다. 그러나 : 당신은 T 통계의 분포에 대해 말하지만 회귀 계수의 분포에 대해 물었습니다. 내 이해는 회귀 계수가 평균 (계수 추정치)과 표준 오류로 특징 지어지는 분포라는 것입니다. 테스트 통계 분포가 아니라이 분포에 대해 물었습니다. 나는 뭔가를 놓칠 수 있으므로 더 분명한 방법으로 설명해보십시오 :) 감사합니다

— Curious

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$ 정규 분포 (동일한 방식으로 이동하고 스케일링 된)을 갖는다. 이것이 당신을 위해 무엇을 분명히합니까?

— 매크로

당신은 정확히 맞습니다! 작은 샘플 크기에서도 동일한 결과를 얻을 수 있습니다 confint(m1)! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

— Curious

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$