진단이 잔차를 기반으로하는 이유는 무엇입니까?

단순한 선형 회귀 분석에서 추론을 수행 할 수있는 특정 가정이 충족되는지 확인하려는 경우가 종종 있습니다 (예 : 잔차가 정규 분포).

적합치가 정규 분포인지 확인하여 가정을 확인하는 것이 합리적입니까?

regression residuals diagnostic

— 브데 오노 비치
소스

진단이 잔차를 기반으로하는 이유는 무엇입니까?

많은 가정이 의 조건부 분포와 관련이 있기 때문에 무조건 분포가 아닙니다. 이는 잔차로 추정되는 오차에 대한 가정과 같습니다. $Y$

단순한 선형 회귀 분석에서 추론을 수행 할 수있는 특정 가정이 충족되는지 확인하려는 경우가 종종 있습니다 (예 : 잔차가 정규 분포).

실제 정규성 가정은 잔차에 관한 것이 아니라 오차항에 관한 것입니다. 당신이 가진 사람들에게 가장 가까운 것은 잔차이기 때문에 우리는 그것들을 확인합니다.

적합치가 정규 분포인지 확인하여 가정을 확인하는 것이 합리적입니까?

적합치의 분포는 의 패턴에 따라 다릅니다 . 가정에 대해 전혀 알려주지 않습니다. $x$

예를 들어, 모든 가정이 올바르게 지정된 시뮬레이션 데이터에 대해 회귀 분석을 실행했습니다. 예를 들어, 오류의 정상 성이 충족되었습니다. 다음은 적합치의 정규성을 확인하려고 할 때 발생하는 현상입니다.

피팅의 정상 진단

그것들은 분명히 비정규입니다. 사실 그들은 바이 모달로 보입니다. 왜? 적합치의 분포는 의 패턴에 따라 달라지기 때문 입니다. 오차는 정상이지만 적합치가 거의 모든 것일 수 있습니다. $x$

사람들이 종종 확인하는 또 다른 것은 (실제로 훨씬 더 자주) 의 정규성입니다 . 그러나 무조건 ; 다시 말하지만 이것은 의 패턴에 따라 달라 지므로 실제 가정에 대해서는별로 설명하지 않습니다. 다시 한 번, 가정이 모두 적용되는 데이터를 생성했습니다. 무조건 값의 정규성을 확인하려고 할 때 발생하는 상황은 다음과 같습니다. $y$ $x$ $x$ $y$

원시 y- 값에 대한 정규성 진단

다시 말하지만, 우리가 여기에있는 비 정상은 (는 Y의가 왜곡이다)의 조건 정상에 관련되지 않은 의. $y$

사실 나는 지금 바로 옆에이 구별에 대해 논의하는 교과서가 있습니다 (조건부 분포와 무조건 분포 사이 ). 즉, 초기 장에서 의 분포를 보는 것이 왜 그렇지 않은지를 설명합니다 권리 다음 반복적으로 다음 장 검사의 분포를보고하여 정규성 가정에서 값 의 영향을 고려하지 않고 의 가정의 적합성을 (그것은 일반적으로하지 다른 것은에서 바로 보는 것입니다 평가하기 히스토그램을 사용하여 평가하지만 다른 문제입니다 ). $Y$ $y$ $-$ $y$ $-$ $x$ $-$

가정은 무엇이며 어떻게 확인하며 언제 만들어야합니까?

(오류없이 관찰)로 고정의 취급 될 수있다. 우리는 일반적으로 이것을 진 단적으로 검사하려고 시도하지 않습니다 (그러나 우리는 그것이 사실인지 좋은 아이디어가 있어야합니다). $x$
모델에서 와 의 관계 는 올바르게 지정됩니다 (예 : 선형). 가장 적합한 선형 모형을 빼면 잔차 평균과 사이의 관계에 나머지 패턴이 없어야합니다 . $E(Y)$ $x$ $x$
상수 분산 (즉, 에 의존하지 않는 . 오류의 확산은 상수이며,이에 대한 잔차의 확산을보고 확인할 수 있습니다 또는 일부 기능을 확인하여 에 대한 제곱 잔차 의 평균 및 변화 (예를 들어, 로그 또는 제곱근과 같은 함수. R은 제곱 잔차의 네 번째 근을 사용함)를 확인합니다. $\text{Var}(Y|x)$ $x$ $x$ $x$
조건부 독립성 / 오류 독립성. 특정 형태의 의존성을 검사 할 수 있습니다 (예 : 직렬 상관 관계). 의존성 형태를 예상 할 수 없다면 확인하기가 약간 어렵습니다.
정규성 의 조건부 분포 / 오류의 정규성. 예를 들어 잔차의 QQ 플롯을 수행하여 확인할 수 있습니다. $Y$

(사실 오류, 오류가 0의 평균 등과 같이 언급되지 않은 다른 가정이 실제로 있습니다.)

최소 제곱 선의 적합도를 추정하고 표준 오차를 말하는 데 관심이 없다면, 대부분의 가정을 할 필요는 없습니다. 예를 들어, 오차 분포는 추론 (테스트 및 간격)에 영향을 미치며 추정의 효율성에 영향을 줄 수 있지만 LS 선은 여전히 가장 좋은 선형 편향입니다. 따라서 분포가 너무 비정규 적이 지 않아 모든 선형 추정값이 나쁘지 않은 한, 오차항에 대한 가정이 유지되지 않는다면 반드시 큰 문제는 아닙니다.

— Glen_b-복귀 모니카
소스

내 답변에 다이어그램을 추가했습니다.

— Glen_b-복지 주 모니카

이것은 좋은 대답입니다. 더 많은 것을 원한다면 여기에서 다소 비슷한 영역을 다룹니다. 잔차가 정상적으로 분포되어 있지만 Y가 아닌 경우 어떻게해야합니까?

— gung-Monica Monica 복원

@ gung 나는 그것을 먼저 연결하지 않은 것에 대해 스스로 발로 차고있다.

— Glen_b-복지국 모니카

@ 글렌 : 아주 좋은 처분. 교과서와 인터넷의 많은 리소스에서 주제를 잘 처리하지 못했기 때문에 오랫동안 같은 혼란을 겪었습니다. 반면, Y의 무조건 분포는 거의 항상 시계열 상황에서 조건부 분포에 대한 모형을 추론하기 위해 검사됩니다. 그 뒤에 이론적 인 이유가 있습니까? 나는 그것을 질문으로하려했지만 제대로 표현할

— Cagdas Ozgenc

@CagdasOzgenc 내가 생각할 수있는 유일한 이유는 모델을 만들기 전에하기가 쉽기 때문입니다. 링크 된 질문에 대한 답변은 게시되었을 때 나에게 좋은 답변처럼 보였습니다.

— Glen_b-복지 주 모니카