미가공 데이터 또는 잔차와 같은 정규성에 대해 무엇을 확인해야합니까?


27

나는 원시 데이터가 아닌 잔차에 대한 정규성을 테스트해야한다는 것을 배웠습니다. 잔차를 계산 한 다음 Shapiro–Wilk의 W 검정을 수행해야합니까?

잔차는 다음과 같이 계산됩니다. ?Ximean

내 데이터와 디자인에 대한 이 이전 질문 을 참조하십시오 .


소프트웨어를 사용하여 (또는 소프트웨어의 경우) 직접 계산을하려고합니까?
Chris Simokat 2018 년

@Chris Simokat : R과 Statistica로이 작업을 수행하려고합니다.
stan

3
이 질문은 흥미로울 수 있습니다. 잔여 물은 정규 분포이지만 y는 아닙니다 . 또한 미가공 데이터에 정규성이 필요한지 또는 잔차에 대한 문제를 다룹니다.
gung-모니 티 복원

1
죄송합니다, 다른 상황에서 자동으로 수행하는 방법을 알기에 SAS가 충분하지 않습니다. 그러나 회귀 분석을 실행하면 잔차를 출력 데이터 세트에 저장할 수 있어야하며, 그러면 qq-lot을 만들 수 있습니다.
gung-모니 티 복원

1
Karen Grace-Martin의 좋은 정보 : 이것이것
stan

답변:


37

왜 정규성을 테스트해야합니까?

선형 회귀 분석의 표준 가정은 이론적 잔차가 독립적이며 정규 분포를 따르는 것입니다. 관측 된 잔차는 이론적 잔차의 추정치이지만 독립적이지 않습니다 (일부 의존성을 제거하지만 실제 잔차의 근사치 만 제공하는 잔차에 대한 변환이 있음). 따라서 관측 된 잔차에 대한 테스트는 이론적 인 잔차가 일치한다고 보장하지 않습니다.

이론적 잔차가 정확히 정규 분포를 따르지 않지만 표본 크기가 충분히 큰 경우, 중앙 한계 정리는 정규성 가정을 기반으로 한 일반적인 추론 (시험 및 신뢰 구간, 그러나 반드시 예측 구간은 아님)이 여전히 거의 정확할 것이라고 말합니다. .

또한 정규성 검정은 제외 테스트이므로 데이터가 정규 분포에서 나온 것 같지 않다는 것을 알 수 있습니다. 그러나 검정이 중요하지 않다고해서 데이터가 정규 분포에서 나왔다는 의미는 아니라고해도 차이를 볼 수있는 충분한 힘이 없다는 것을 의미 할 수도 있습니다. 표본 크기가 클수록 비정규 성을 탐지하는 데 더 많은 힘을 제공하지만 표본과 CLT가 클수록 비정규 성이 가장 중요하지 않습니다. 따라서 표본 크기가 작은 경우 정규성 가정이 중요하지만 검정은 의미가 없으며 표본 크기가 크면 검정이 더 정확할 수 있지만 정확한 정상성에 대한 문제는 의미가 없습니다.

따라서 위의 모든 것을 결합하면 정확한 정규성 검정보다 더 중요한 것은 모집단이 정상에 가까운 지 확인하기 위해 데이터 배후의 과학을 이해하는 것입니다. qqplots와 같은 그래프는 좋은 진단이 될 수 있지만 과학에 대한 이해도 필요합니다. 특이 치에 대해 너무 많은 왜도 또는 잠재적 우려가있는 경우 정규성 가정이 필요없는 비모수 적 방법을 사용할 수 있습니다.


6
첫 번째 줄의 질문에 대답하려면 : 근사 정규성은 ANOVA에서 F- 검정을 적용하고 분산에 대한 신뢰 한계를 만드는 데 중요합니다. 좋은 아이디어를위한 (+1).
whuber

4
@ whuber, 그렇습니다 대략적인 정규성은 중요하지만 테스트는 대략적인 것이 아니라 정확한 정규성을 테스트합니다. 그리고 큰 표본 크기의 경우 근사치가 매우 근접 할 필요는 없습니다 (시험이 거부 될 가능성이 가장 높은 곳). F- 검정 (또는 다른 정규 기반 추론)을 사용하여 데이터를 생성 한 과학에 대한 좋은 음모와 지식은 공식 정규성 검정보다 훨씬 유용합니다.
Greg Snow

Greg, 알았어 배포 피팅을하고 데이터가 Beta 또는 Gamma 배포에서 온 것임을 알면 어떻게해야합니까? 가우시안 법을 가정하는 분산 분석?
stan

2
(+1) 이것은 끝을 제외하고는 잘 진행되었습니다. (a) 정규성 가정에 따른 회귀 분석과 (b) 비모수 적 절차 중에서 선택할 필요는 없습니다. 회귀 전의 변환 및 / 또는 일반화 된 선형 모형은 두 가지 주요 대안입니다. 통계 모델링에 대한 모든 것을 요약하려고 노력하지는 않지만 마지막 부분은 약간 증폭 될 수 있음을 알고 있습니다.
Nick Cox

따라서 선형 회귀 분석에서 원시 데이터의 정규성 또는 잔차의 정규성을 테스트해야합니까?
vasili111

7

가우스 가정은 모형의 잔차를 나타냅니다. 원본 데이터에 대한 가정은 필요하지 않습니다. 일별 맥주 판매 분포의 경우 여기에 이미지 설명을 입력하십시오. 합리적인 모델이 요일, 휴일 / 이벤트 효과, 레벨 이동 / 시간 추세를 파악한 후여기에 이미지 설명을 입력하십시오


답장을 보내 주셔서 감사합니다. 데이터를 가우스 분포로 변환 할 수 있다고 말하고 싶습니까?
스탠

3
스탠, 모델링의 역할은 추론이 만들어지고 가설이 검증 될 수 있도록 정확하게하는 것입니다.
IrishStat

6

먼저 QQ- 플롯 을 사용하여 "눈으로 볼 수"있습니다. 여기서 일반적인 의미를 얻으려면 R로 생성하는 방법이 있습니다.

R 매뉴얼 에 따르면 데이터 벡터를 shapiro.test () 함수에 직접 공급할 수 있습니다.

잔차를 직접 계산하려면 각 잔차가 일련의 관측치에 대해 계산됩니다. 자세한 내용은 여기를 참조 하십시오 .


따라서 정규성 방법을 이해하는 한 실제로 원시 데이터 잔차의 정규성을 확인합니다. 그들은 자동으로 그렇게하고 우리는 잔차를 계산하지 않아야하며 테스트를 받아야합니다. 그리고 일상 연설에서 우리는 일반적으로 내 데이터의 잔차가 "정상"이라고 가정하고 "내 데이터가 정상적으로 배포됩니다"로 전환합니다. 제발 날 고쳐줘
스탠

6
나는 당신의 마지막 요점에 동의하지 않습니다. 내 데이터가 정상적으로 분포되었다고 말하는 사람들은 일반적으로 잔차를 참조하지 않습니다. 사람들은 모든 통계 절차가 모든 데이터가 정상이어야한다고 생각하기 때문에 사람들이 말한다
Glen

@Glen 솔직히 말해서 나는 (거짓) 지금까지 똑같이 생각합니다 ... 감마 또는 베타가 있거나 분산 데이터가 정상적으로 통계와 동일 해야하는 경우 이해할 수 없습니다 (이것은 내 문제입니다) 그들의 진정한 / 자연적인 분포에도 불구하고 분포되어 있습니까? 그리고 배포 사실은 단지 표시를위한 것입니까? 이 사이트 이전에 가우시안 배포판 만 알고 있습니다 ...
stan
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.