R에서 다중 회귀 모델을 실행할 때 출력 중 하나는 자유도 95,161에서 0.0589의 잔류 표준 오차입니다. 표본의 관측치 수와 모형의 변수 수의 차이로 95,161 자유도가 주어진다는 것을 알고 있습니다. 잔차 표준 오차는 무엇입니까?
R에서 다중 회귀 모델을 실행할 때 출력 중 하나는 자유도 95,161에서 0.0589의 잔류 표준 오차입니다. 표본의 관측치 수와 모형의 변수 수의 차이로 95,161 자유도가 주어진다는 것을 알고 있습니다. 잔차 표준 오차는 무엇입니까?
답변:
적합 회귀 모델은 매개 변수를 사용하여 동일한 값으로 스터디를 무한 횟수로 (및 선형 모델이 참인 경우) 스터디를 복제하는 경우 관측 된 반응의 수단 인 점 추정값 예측을 생성합니다 . 이러한 예측 된 값과 모델을 맞추는 데 사용 된 값의 차이를 "잔여 물"이라고하며, 데이터 수집 프로세스를 복제 할 때 0의 평균을 갖는 임의 변수의 속성을 갖습니다.
관찰 된 잔차는 이후에 이들 값의 변동성을 추정하고 파라미터의 샘플링 분포를 추정하는데 사용된다. 잔차 표준 오차가 정확히 0 인 경우 모형은 데이터를 완벽하게 적합시킵니다 (과잉 적합으로 인해). 잔차 표준 오차가 무조건 응답의 변동성과 크게 다를 수없는 경우 선형 모형에 예측 능력이 있음을 암시하는 증거는 거의 없습니다.
다음과 같은 분산 분석 테이블이 있다고 가정하십시오 (R의 example(aov)
명령으로 수정).
Df Sum Sq Mean Sq F value Pr(>F)
Model 1 37.0 37.00 0.483 0.525
Residuals 4 306.3 76.57
변형의 원천 (모형 또는 잔차)에서 제곱의 합을 해당 자유 도로 나누면 평균 제곱이됩니다. 특히 잔차의 경우 :
따라서 76.57은 잔차의 평균 제곱, 즉 반응 변수의 잔 차량 (모델 적용 후) 변화량입니다.
잔류 표준 오류 당신에 대해 요청했습니다는 아무것도 이상의 평균 제곱 오차의 양의 제곱근 . 내 예에서 잔차 표준 오류는 또는 대략 8.75입니다. R은이 정보를 "4 자유도에서 8.75"로 출력합니다.
RSE는 "통계 학습 입문"에서 매우 명확하게 설명됩니다.