정규 잔차 란 무엇을 의미하며 내 데이터에 대해 무엇을 알려줍니까?


13

매우 기본적인 질문 :

선형 회귀에서 잔차의 정규 분포는 무엇을 의미합니까? 이 점이 회귀 분석에서 얻은 원래 데이터에 어떻게 반영됩니까?

난 정말 엉망이야

답변:


5

실제로 선형 회귀는 결과의 조건부 예상 값을 모델링합니다. 즉 , 예측 변수 X의 값이 주어지면 회귀 모수의 실제 값 (예 : 및 ) 을 알고 있으면 방정식 집니다. 대해 주어진 값을 갖는 모든 (가능한) 관측치에 대해 에 대한 예상 값을 계산하십시오 .β 1 E [ Y | X ] = β 0 + β 1 X Y Xβ0β1

E[Y|X]=β0+β1X
YX

그러나 주어진 값에 대한 단일 값 이 (조건부) 평균과 정확히 동일하다고 기대하지는 않습니다 . 모델이 잘못되어있는 것이 아니라 설명하지 않은 일부 효과 (예 : 측정 오류)가 있기 때문입니다. 따라서 주어진 값에 대한 이 값 은 평균 값 주위에서 변동합니다 (즉, 기하학적 : 해당 의 회귀선 점 주위 ).X Y X XYXYXX

정규성 가정은, 지금의 차이가 있다고 말한다 의과 일치 평균 0 인 정규 분포를 따른다. 만약이 경우 수단, 값을, 다음 샘플 수 제 계산함으로써 값 (즉 다시 다음 샘플링 회귀 직선 위의 점) 것과 정규 분포 및 추가 : E [ Y | X ] X Y β 0 + β 1 X E [ Y | X ] ϵ Y ' = E [ Y | X ] + ϵYE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

한마디로 :이 정규 분포는 모형에서 설명한 변동성 위에 결과의 변동성을 나타냅니다 .

참고 : 대부분의 데이터 세트에는 특정 대해 여러 개의 값이 없지만 (예측 세트가 범주 형이 아닌 한)이 정규성은 데이터 세트의 관측치뿐만 아니라 전체 모집단에 적용됩니다.XYX

참고 : 선형 회귀에 대한 추론을 하나의 예측 변수로 수행했지만 위와 같이 "line"을 "hyperplane"으로 바꾸십시오.


이것은 훌륭한 설명입니다! 그러나 한 가지 질문입니다. e가 정규 분포를 따른다는 것은 e에 대해 가장 가능성이 높은 값이 -1과 +1 사이 (표준화 후)라고 가정한다는 의미입니까? 따라서 정규 분포는 이러한 값이 실제 생활에서 어떻게 작동하는지 더 잘 모델링하기 때문에 기본적으로 포아송 분포 대신 정규 분포를 사용합니까?
user3813234

1

그것은 많은 것을 의미하거나 아무것도 의미하지 않을 수 있습니다. 가장 높은 R- 제곱을 얻기 위해 모형을 적합하면 어리 석었을 수 있습니다. 변수가 필요하고 필요하다는 점에서 모델이 적합하고 특이 치를 식별하는 경우 훌륭한 작업을 수행 한 것입니다. http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175 에 대한 자세한 내용은 여기를 참조 하십시오.


0

잔차의 정규성은 선형 모형을 실행하는 것으로 가정합니다. 따라서 잔차가 정상이면 가정이 유효하고 모형 유추 (신뢰 구간, 모형 예측)도 유효해야 함을 의미합니다. 그렇게 간단합니다!


정규성 가정은 관찰 가능한 잔차에 대한 것이 아니라 관찰 할 수없는 오차 (따라서 가정의 필요성)에 관한 것입니다.
DL Dahly

2
예, 그러나 잔차를 사용하여 관찰 할 수없는 오류에 대한 가정을 테스트합니다.
wcampbell

정규 잔차가 유효한 회귀 모델을 보장한다는 데 동의하지 않습니다. X 및 Y 오류가 동일한 원형 가우스 모델이 있다고 가정합니다. 그런 다음 회귀 라인 신뢰 구간은 입니다. 이것이 유일한 반대 사례는 아니며 더 많은 것이 있습니다.  to 
Carl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.