예제의 회귀 분석에 따르면 잔차는 반응 값과 예측 값의 차이이며 모든 잔차는 분산이 다르므로 표준화 된 잔차를 고려해야합니다.
그러나 분산은 값 그룹에 대한 것입니다. 단일 값은 어떻게 분산 될 수 있습니까?
예제의 회귀 분석에 따르면 잔차는 반응 값과 예측 값의 차이이며 모든 잔차는 분산이 다르므로 표준화 된 잔차를 고려해야합니다.
그러나 분산은 값 그룹에 대한 것입니다. 단일 값은 어떻게 분산 될 수 있습니까?
답변:
확률 분포에서 랜덤 드로우로 발생하는 개별 숫자 (예 : 잔차) 는 랜덤 변수 가 아니라 실현 된 값이라고 합니다 . 마찬가지로, 나는 를 사용하여 데이터 및 모형 적합으로부터 계산 된 잔차 은 실현 된 값의 집합입니다. 이 숫자 집합은 기본 분포에서 독립적으로 도출되는 것으로 느슨하게 개념화 될 수 있습니다. ~ . (그러나 불행히도 여기에는 몇 가지 추가 복잡성이 있습니다. 예를 들어 실제로 잔차 때문에 독립적 인 정보 다음 두 가지 조건을 충족해야합니다. , .)
이제 몇 가지 숫자가 주어지면 잔차 또는 그 밖의 어떤 것이 든, 그것들이 차이가 있다는 것은 사실입니다. 그러나 이것은 흥미롭지 않습니다. 우리가 신경 쓰는 것은 데이터 생성 프로세스에 대해 무언가를 말할 수 있다는 것입니다 (예를 들어, 인구 분포의 분산을 추정하기 위해). 앞의 공식을 사용하여나머지 자유도를 사용하지만 근사치가 아닐 수 있습니다. 이 주제는 매우 빠르게 복잡해질 수있는 주제이지만, 몇 가지 가능한 이유는 이분산성 일 수 있습니다 (즉, 인구의 분산이 다른 수준에서 다름).) 및 특이 치의 존재 (즉, 주어진 잔차가 완전히 다른 모집단에서 도출 됨). 거의 확실하게 실제로는 특이 치가 도출 된 모집단의 분산을 추정 할 수 없지만 그럼에도 이론적으로는 분산이 있습니다. 나는이 줄을 따라 뭔가 저자가 생각한 것으로 의심하지만, 나는 그 책을 읽지 않았다는 것을 알아야한다.
업데이트 : 질문을 다시 읽었을 때 따옴표가점의 값은 적합 회귀선에 영향을 미치므로 해당 점과 연관된 잔차의 값에 영향을줍니다. 여기서 파악해야 할 핵심 아이디어는 레버리지 입니다. 나는 내 대답에서 이러한 주제에 대해 토론합니다 : plot.lm () 해석 .