선형 회귀 분석에서 계수 표준 오차를 해석하는 방법은 무엇입니까?


26

R에서 표시 기능을 사용할 때 회귀의 계수 표준 오류를 해석하는 방법이 궁금합니다.

예를 들어 다음 출력에서 ​​:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

표준 오차가 높을수록 중요성이 커 집니까?

또한 잔차 표준 편차의 경우 값이 높을수록 확산이 커지지 만 R 제곱은 매우 밀접한 일치를 나타냅니다. 이것이 모순이 아닙니까?

답변:


52

표본 평균 또는 OLS 회귀 계수와 같은 모수 추정치는 해당 모집단 모수에 대한 추론을 도출하는 데 사용하는 표본 통계입니다. 모집단 매개 변수는 우리가 실제로 신경 쓰는 부분이지만 전체 모집단에 액세스 할 수 없기 때문에 (보통 무한하다고 가정)이 방법을 대신 사용해야합니다. 그러나이 방법에는 불편한 사실이 있습니다. 예를 들어, 다른 표본을 취하여 모수를 다시 추정하기 위해 통계량을 계산했다면 거의 다름을 알 수있을 것입니다. 또한, 어느 추정치도 우리가 알고 자하는 실제 모수 값과 일치하지 않을 것입니다. 사실, 우리가 이것을 반복해서 계속 샘플링하고 영원히 추정한다면 서로 다른 추정값의 상대 빈도가 확률 분포를 따른다는 것을 알 수 있습니다. 중심 한계 정리는이 분포가 정상일 가능성이 있다고 제안합니다. 그 분포에서 불확실성의 양을 정량화 할 방법이 필요합니다. 그것이 표준 오류가 당신을 위해하는 일입니다.

귀하의 예에서는 모집단에서 x1과 y 사이의 선형 관계의 기울기를 알고 싶지만 표본에만 액세스 할 수 있습니다. 표본에서 해당 기울기는 .51이지만 해당 표본 분포 에 얼마나 많은 변동이 있는지 알지 못하면 해당 숫자로 무엇을 만들어야하는지 알기가 어렵습니다. 이 경우 표준 오차 .05는 해당 샘플링 분포의 표준 편차입니다. 유의성을 계산하려면 추정값을 SE로 나누고 표에서 몫을 찾습니다. 따라서 SE가 클수록 유의성이 낮아집니다 .

잔차 표준 편차는 기울기의 샘플링 분포와 관련이 없습니다. 모델의 조건부 샘플의 표준 편차 일뿐입니다. 모순도없고 없을 수도 있습니다. R ^ 2가 높고 데이터 포인트가 40 개인 SD가 더 큰 방법에 대해서는 범위 제한의 반대가 있다고 생각합니다 .x 값이 매우 널리 퍼져 있습니다.


훌륭하고 명확한 답변! 두 번째 질문에서 SD는 수평 분산을 나타내고 R ^ 2는 전체 적합도 또는 수직 분산을 나타냅니다.
upabove

7
@Dbr, 기꺼이 도와 드리겠습니다. 일반적으로 응답 변수는 세로 축에 있고 예측 변수는 가로 축에 있다고 생각합니다. 이 설정을 사용하면 모든 것이 수직입니다. 회귀는 예측과 반응 변수 (SSE) 간의 수직 거리를 최소화합니다. 마찬가지로, 잔여 SD는 예측 된 값을 고려한 후 수직 분산의 측정치이다. 마지막으로 R ^ 2는 예측의 수직 분산과 원시 데이터의 총 수직 분산의 비율입니다.
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.