내가 사용하는 텍스트에 따르면 잔차 의 분산 공식 은 다음과 같습니다.
잔차가 관측 값과 적합치 의 차이 이므로 믿기가 어렵습니다 . 차이의 분산을 계산하는 경우 최소한 결과 표현식에 "플러스"가 표시됩니다. 파생을 이해하는 데 도움이 될 것입니다.
내가 사용하는 텍스트에 따르면 잔차 의 분산 공식 은 다음과 같습니다.
잔차가 관측 값과 적합치 의 차이 이므로 믿기가 어렵습니다 . 차이의 분산을 계산하는 경우 최소한 결과 표현식에 "플러스"가 표시됩니다. 파생을 이해하는 데 도움이 될 것입니다.
답변:
분산과 관련된 "더하기"부호에 대한 직감 (독립 임의 변수의 차이의 분산을 계산할 때도 분산을 추가한다는 사실로부터) 정확하지만 치명적인 불완전 함 : 관련된 임의 변수가 독립적이 아닌 경우 공분산도 포함되며 공분산은 음수 일 수 있습니다. 이 표현 존재하는 거의 가 (나를 등) OP가 될 "해야한다"고 생각했던 문제의 표현처럼, 그리고 그것은이다 의 분산 예측 오류 가 나타내는, , 여기서 :Y 0 = β 0 + β 1 X 0 + U 0
예측 오차의 분산과의 편차 사이의 중요한 차이 추정 에러 (즉, 잔여의)는 예측 관찰 에러 용어이다 추정기와 관련되지 않은 값 때문에, 하였다 되지 에서 사용 추정값을 구성하고 추정값을 계산하여 표본을 벗어난 값입니다.
두 대수는 정확히 같은 방식으로 점까지 진행 되지만 ( 대신 사용 ) 분기됩니다. 구체적으로 :나는
간단한 선형 회귀 분석 , , 추정기의 분산 는 여전히 바르 ( U I ) = σ 2 β
우리는
그래서
우리는
그래서
의미하는 것은
번째의 나머지는 다음과 같이 정의된다
실제 계수들은 회귀 고정 (또는 조건부)는 상수로 간주하고, 에러 항 제로 공분산을 가지고있다 그러나 추정기는 에러 항과 상관되는 상기 추정기는 종속 변수를 포함하기 때문에, 상기 종속 변수 오류 용어를 포함합니다. 그래서 우리는
그것을 얻기 위해 조금 포장
큰 괄호 안의 용어는 예측 오차의 분산과 정확히 동일한 구조를 갖습니다. 유일한 변경은 대신 을 갖게됩니다 (그리고 분산은 의 변수 이며 ). 이므로 은 추정값에 포함 되지 않으므로 예측 오차의 마지막 공분산 항은 0 이지만 와 는 표본의 일부 이므로 추정 오차에는 이 아닙니다 . 평가자. 우리는X 0 E 0 U I Y 0 U 0 Y I U I
계산 방식의 마지막 대체 계속,
이것을 잔차의 분산에 대한 표현식에 삽입하면
따라서 OP가 사용하는 텍스트를 싫어합니다.
(나는 일부 대수 조작을 건너 뛰었습니다. 요즘 OLS 대수학이 점점 덜 가르쳐지는 것은 놀라운 일이 아닙니다 ...)
일부 이해
따라서 예측할 때 "우리에 대해"(더 큰 차이) 작동하고 추정 할 때 "우리에 대해"(더 낮은 차이) 작동하는 것으로 보입니다. 이것은 왜 훌륭한 적합이 모델의 예측 능력에 나쁜 신호가 될 수 있는지 숙고하기위한 좋은 출발점입니다.
우리는 사실 추정 회귀 변수의 예상 값이 감소 하여 분산을 . 왜? 추정 함으로써 , 우리 는 본질적으로 기대 값을 추정하기 때문에 샘플에 존재 하는 약간의 오차-변이성 에 대해 "눈을 감는다" . 또한 회귀 분석기의 표본 평균에서 회귀 분석기의 관측 편차가 클수록이 관측 값과 관련된 잔차의 분산은 다음과 같습니다. 관측 값이 더 이탈 적 일수록 잔차가 덜 이탈 적입니다 ... 그것은 알려지지 않은 오류의 "장소를 점령"함으로써 우리를 위해 일하는 회귀 자의 변동성입니다. 가변성.
그러나 그것은 추정에 좋습니다 . 대한 예측 , 같은 일이 우리에 대해 설정 : 지금, 그러나 불완전, 계정에 변화를 고려하지 않음으로써 (우리가 그것을 예측하기 원하기 때문에), 샘플에서 얻은 우리의 불완전한 추정량은 자신의 약점을 보여 우리가 추정 샘플 평균, 우리는 실제 예상 값을 알지 못합니다-분산이 증가합니다. 우리는 다른 관측치로부터 계산 된 바와 같이 표본 평균에서 멀리 떨어진 을 가지고 있습니다-너무 나쁘다, 예측 오차 분산은 또 다른 부스트를 얻습니다. 왜냐하면 예측 된 은 타락하는 경향이 있기 때문입니다. 과학 언어 "감소 된 예측 오차 분산의 관점에서 최적의 예측 변수는X 0 (Y) 0 평균쪽으로 수축 예측에 따라 변수의 가까운 평균 "". 우리는 종속 변수의 변화 - 우리는 단지 숙박 시도를 복제하려고하지 않는다 ".
다소 간결한 대답, 아마도 지나치게 추상적이고 바람직한 양의 직관적 인 설명이 부족하여 죄송하지만 나중에 다시 돌아와서 몇 가지 세부 정보를 추가하려고 시도합니다. 적어도 짧습니다.
주어진 ,
금후
간단한 선형 회귀의 경우 ...이 질문에 대한 답을 제공합니다.
이 응답은 또한 의미한다 : 이후 긍정적으로 상관된다 차이의 분산은 편차의 합보다 작아야한다.
-
편집 : 왜 가 dem 등원 인지 설명 .
(i) 는 dem 등원이다 :
= X [
(ii)