나는 원시 데이터가 아닌 잔차에 대한 정규성을 테스트해야한다는 것을 배웠습니다. 잔차를 계산 한 다음 Shapiro–Wilk의 W 검정을 수행해야합니까?
잔차는 다음과 같이 계산됩니다. ?
내 데이터와 디자인에 대한 이 이전 질문 을 참조하십시오 .
나는 원시 데이터가 아닌 잔차에 대한 정규성을 테스트해야한다는 것을 배웠습니다. 잔차를 계산 한 다음 Shapiro–Wilk의 W 검정을 수행해야합니까?
잔차는 다음과 같이 계산됩니다. ?
내 데이터와 디자인에 대한 이 이전 질문 을 참조하십시오 .
답변:
왜 정규성을 테스트해야합니까?
선형 회귀 분석의 표준 가정은 이론적 잔차가 독립적이며 정규 분포를 따르는 것입니다. 관측 된 잔차는 이론적 잔차의 추정치이지만 독립적이지 않습니다 (일부 의존성을 제거하지만 실제 잔차의 근사치 만 제공하는 잔차에 대한 변환이 있음). 따라서 관측 된 잔차에 대한 테스트는 이론적 인 잔차가 일치한다고 보장하지 않습니다.
이론적 잔차가 정확히 정규 분포를 따르지 않지만 표본 크기가 충분히 큰 경우, 중앙 한계 정리는 정규성 가정을 기반으로 한 일반적인 추론 (시험 및 신뢰 구간, 그러나 반드시 예측 구간은 아님)이 여전히 거의 정확할 것이라고 말합니다. .
또한 정규성 검정은 제외 테스트이므로 데이터가 정규 분포에서 나온 것 같지 않다는 것을 알 수 있습니다. 그러나 검정이 중요하지 않다고해서 데이터가 정규 분포에서 나왔다는 의미는 아니라고해도 차이를 볼 수있는 충분한 힘이 없다는 것을 의미 할 수도 있습니다. 표본 크기가 클수록 비정규 성을 탐지하는 데 더 많은 힘을 제공하지만 표본과 CLT가 클수록 비정규 성이 가장 중요하지 않습니다. 따라서 표본 크기가 작은 경우 정규성 가정이 중요하지만 검정은 의미가 없으며 표본 크기가 크면 검정이 더 정확할 수 있지만 정확한 정상성에 대한 문제는 의미가 없습니다.
따라서 위의 모든 것을 결합하면 정확한 정규성 검정보다 더 중요한 것은 모집단이 정상에 가까운 지 확인하기 위해 데이터 배후의 과학을 이해하는 것입니다. qqplots와 같은 그래프는 좋은 진단이 될 수 있지만 과학에 대한 이해도 필요합니다. 특이 치에 대해 너무 많은 왜도 또는 잠재적 우려가있는 경우 정규성 가정이 필요없는 비모수 적 방법을 사용할 수 있습니다.
먼저 QQ- 플롯 을 사용하여 "눈으로 볼 수"있습니다. 여기서 일반적인 의미를 얻으려면 R로 생성하는 방법이 있습니다.
R 매뉴얼 에 따르면 데이터 벡터를 shapiro.test () 함수에 직접 공급할 수 있습니다.