분산에 대한 회귀는 왜 발생합니까?

이 메모를 읽고 있습니다.

2 페이지에 다음과 같이 표시되어 있습니다.

"데이터의 분산이 주어진 회귀 모델로 얼마나 설명되어 있습니까?"

"회귀 해석은 계수의 평균에 관한 것이며 추론은 분산에 관한 것입니다."

이러한 진술에 대해 여러 번 읽었습니다. 왜 데이터의 분산이 주어진 회귀 모델에 의해 설명됩니까? "... 더 구체적으로, 왜"분산 "에 관심이 있습니까?

regression variance interpretation

— 루나
소스

표준 편차는 무엇입니까? 회귀에서 우리가 신경 써야 할 것은 무엇입니까? 회귀 모형을 작성하는 일반적인 목표는 무엇입니까?

— gung-모니 티 복원

분산은 모델링되는 수량과 다른 단위를 가지므로 항상 "모델이 설명하는 분산의 비율"을 해석하기가 어렵다는 것을 알게되었습니다.

— 운항

답변:

왜 우리는 "주어진 회귀 모델에 의해 데이터의 차이가 얼마나 많은지를 설명 할 것입니까?"

이에 대한 답을 얻으려면 특정 비율의 분산이 회귀 모형으로 설명되는 것이 정확히 무엇을 의미하는지 생각하는 것이 유용합니다.

하자 은 결과 변수입니다. 회귀 모형에서 종속 변수의 일반적인 표본 분산은 $Y_{1}, ..., Y_{n}$ 지금 내버려의 예측되는예측 값으로 회귀 선형 최소 제곱 기반으로. 입증 된 바와 같이여기에, 상기이 분산은 다음과 같이 분배 될 수있다 :

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2$

{\hat{Y}}_{i} \equiv \hat{f} (X_{i})

$\widehat{Y}_i \equiv \widehat{f}({\boldsymbol X}_i)$

Y_{i}

$Y_i$

X_{i}

${\boldsymbol X}_i$

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \underset{r e s i d u a l v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2}}} + \underset{e x p l a i n e d v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}}}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2 = \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \widehat{Y}_i)^2}_{{\rm residual \ variance}} + \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (\widehat{Y}_i - \overline{Y})^2}_{{\rm explained \ variance}}$

최소 제곱 회귀 분석에서 예측 된 값의 평균은 이므로 총 분산은 관찰 된 값과 예측 된 값 (잔여 분산) 사이의 평균 제곱 차이에 더하여 예측 자체의 샘플 분산 (설명 된 분산)과 같습니다. 이는 의 함수일뿐 입니다. 따라서 "설명 된"분산은 변동에 기인 한 의 분산으로 간주 될 수 있습니다 . 변량의 비율 "설명"한다 (즉, 변화의 비율 의 변동에 기인 $\overline{Y}$ ${\boldsymbol X}$ $Y_i$ ${\boldsymbol X}_i$ $Y_i$ $Y_i$ ) 때때로 라고도한다. ${\boldsymbol X}_i$ $R^2$

이제 우리는 두 가지 극단적 인 예를 사용하여이 분산 분해가 중요한 이유를 분명히합니다.

(1) 예측자는 반응과 아무 관련이 없습니다 . 이 경우, 대 (최소 제곱 법 의미에서) 가장 공평 예측기 이다 . 따라서 의 총 분산 은 잔차 분산과 동일하며 예측 변수 의 분산과 관련이 없습니다 . $Y_i$ $\widehat{Y}_i = \overline{Y}$ $Y_i$ ${\boldsymbol X}_i$
(2) 예측 변수는 예측 변수와 완전히 선형 적으로 관련되어 있습니다. 그 경우, 예측은 정확하고 올바른 . 따라서 잔차 분산이 없으며 결과의 모든 분산이 예측 자체의 분산이며 예측 변수의 함수일뿐입니다. 따라서 결과의 모든 분산은 단순히 예측 변수 분산으로 인한 것 입니다. $\widehat{Y}_i = Y_i$ ${\boldsymbol X}_i$

실제 데이터가있는 상황은이 두 가지 원인에 기인 할 수있는 분산의 비율과 같이 종종 두 극단 사이에 놓입니다. (가)보다 "분산을 설명"있다 - 즉, 더욱의 변동의 인해 변화이고 그 -수록 예측 수행되는 (즉, 더 작은 "잔류 편차는") 최소 제곱 모형이 적합하다는 또 다른 방법입니다. $Y_i$ ${\boldsymbol X}_i$ $\widehat{Y}_{i}$

— 매크로
소스

이것은 내 대답과 같지만 약간 더 잘 설명되어 있습니다. 또한 언급 할 수있는 크리켓은 Y의 평균에 대한 변형을 작성해야한다는 것입니다.

— Michael R. Chernick

@MichaelChernick, 예. 그러나 최소 제곱 회귀 (OP가 연결된 슬라이드를 기반으로 이야기하고 있다고 생각합니다), 예측 된 값의 평균은

의 평균과 같으 므로 샘플 분산이라고 할 수 있습니다. 예측.

Y

$Y$

— 매크로

분산 분해가 제대로 작동하려면 Yb가 필요하기 때문에 대답을 편집했습니다.

— Michael R. Chernick

예, 그녀가 최소 제곱 회귀를 언급하고 있음이 분명했습니다. 아직도 당신이 쓴 많은 것은 내가 조금 다르게 말한 것을 반복하는 것입니다. 나는 여전히 당신에게 +1을 주었다.

— Michael R. Chernick

매크로 내 지점이 분해가 발생하는 경우에만

및 "회귀"그래서 본질적 상수 벡터를 포함하는 공간에 직교 투영을 포함한다. 우리는 모델에서 상수 벡터를 간단히 제거하여이 분해를 쉽게 "파괴"할 수 있습니다. 이는 가장 최근의 주석과 충돌하는 것 같습니다.

⟨ y - \hat{y}, \hat{y} - \bar{y} 1 ⟩ = 0

$\langle \mathbf y - \hat {\mathbf y}, \hat{\mathbf{y}} - \bar{y} \mathbf{1} \rangle = 0$

— 추기경

나는 내 앞에 대답 한 통계의 큰 개들과 함께 달릴 수 없으며 아마도 내 생각은 순진하지만, 이런 식으로 본다 ...

당신이 차에 있고 도로를 내려 가고 바퀴를 좌우로 돌리고 가스 페달과 브레이크를 열광적으로 누른다 고 상상해보십시오. 그러나 자동차는 당신의 행동에 영향을받지 않고 부드럽게 움직입니다. 당신은 즉시 당신이 실제 차에 없었다는 것을 의심 할 것입니다. 아마도 우리가 면밀히 살펴보면 디즈니 월드에서 당신이 타고 있다고 결정했을 것입니다. (만약 당신이 진짜 차에 있다면, 당신은 치명적인 위험에 처할 것입니다. 그러나 거기에 가지 마십시오.)

반면에, 자동차에서 도로를 주행하고 휠을 약간 왼쪽이나 오른쪽으로 돌리면 자동차가 즉시 움직이고 브레이크를 두드리면 강한 감속이 발생하고 가스 페달을 밟으면 좌석. 당신은 당신이 고성능 스포츠카에 있다고 의심 할 수 있습니다.

일반적으로, 당신은 아마 그 두 극단 사이에 무언가를 경험할 것입니다. 입력 (스티어링, 브레이크, 가스)이 자동차의 움직임에 직접 영향을 미치는 정도는 자동차의 품질에 대한 단서를 제공합니다. 즉, 당신의 행동과 관련된 운동의 변화가 클수록 자동차가 더 좋고, 자동차가 컨트롤과 독립적으로 움직일수록 자동차는 더 나빠집니다.

유사한 방식으로, 당신은 (의이 데이터 부르 자 일부 데이터에 대한 모델을 만드는 방법에 대해 이야기하고 (의 그들을 부르 자 데이터의 다른 세트를 기반으로) ). 경우 변화하지 않습니다, 그것은 움직이지 않고있어 자동차처럼 우리는 가정합니다, 그래서 자동차 (모델), 잘 여부 작동하는지 논의 아무 소용 정말 없다 다를 않습니다는. $y$ $x_1, x_2, ..., x_i$ $y$ $y$

자동차와 마찬가지로 양질의 모델은 변화 하는 결과 와 변화하는 입력 간에 좋은 관계를 갖습니다 . 자동차와는 달리,이 필요하지 않는 원인 모델이 유용 할 것입니다 경우 변화하지만, 에 밀접한 관계가 변화 할 필요가 . 다시 말해, 는 의 분산의 많은 부분을 설명 합니다. $y$ $x_i$ $x_i$ $y$ $x_i$ $y$ $x_i$ $y$

추신 : 나는 Winnie The Pooh 유추를 생각해 낼 수 없었지만 시도했습니다.

PPS [편집 :]이 특정 질문에 답하고 있습니다. 분산의 100 %를 차지하면 모형이 훌륭하게 작동 할 것이라는 생각에 혼동하지 마십시오. 또한 모델이 너무 유연하여 임의의 단점과 이상을 포함하여 훈련 데이터에 매우 가깝게 맞는 과적 합에 대해 고려해야합니다. 비유를 사용하려면 스티어링과 브레이크가 좋은 자동차를 원하지만 사용중인 테스트 트랙뿐만 아니라 도로에서도 잘 작동하기를 원합니다.

— 웨인
소스