“반전 된”Shapiro–Wilk


11

Wikipedia 에 따르면 Sharipo-Wilk 검정은 귀무 가설 ( ) "집단이 정상적으로 분포되어 있음"을 검정 합니다.H0

"인구 정상적으로 분포 되어 있지 않습니다 " 와 유사한 정규성 검정을 찾고 있습니다.H0

이러한 테스트 를 통해 유의 수준에서 을 기각 하기 위해 값 을 계산하고 싶습니다. iff ; 제 인구가 정상적으로 분포되어 있음을 증명합니다.pH0αp<α

Sharipo-Wilk 테스트를 사용하고 iff 수락 하는 것은 문자 그대로 "H0이 유지되지 않는다는 증거가 충분하지 않음"을 의미 하기 때문에 잘못된 접근 방식 입니다.H0p>α

관련 스레드 값의 의미p , 정규성 테스트는 쓸모가 없습니까? 하지만 내 문제에 대한 해결책을 볼 수 없습니다.

질문 : 어떤 테스트를 사용해야합니까? R로 구현 되었습니까?


6
"정규 분포되지 않음"이라는 귀무 가설은 사용할 수 없습니다. 이 공간에는 정규 분포에 근접하지만 모든 분포에 임의로 분포하는 모든 분포가 포함됩니다. 당신은 나에게 유한 한 데이터 세트를 제공합니다. 나는 경험적이지 않은 분포를 선택하는데, 이는 정규적이지 않으므로 null 공간에 속합니다. 거부 할 수 없습니다.
A. Webb

5
이전 질문과 동일한이 질문은 불가능을 요구합니다. 정답은 통계적 가설 테스트가 어떻게 작동하는지 설명하기 때문에 다른 질문에 대한 의견에서 stats.stackexchange.com/questions/31 을 지적했습니다 .
whuber

5
귀무 가설 "정규 분포되지 않음"은 불가능하지만, 귀무 가설 " 당량 검정의 선을 따라 적어도 "과 다른 정규 적합도 통계량의 절대 값으로 분포됩니다 . 다시 말해서, "최소한 이만큼 비정규"의 널 (null)에 대해 테스트 할 수 있어야합니다 . @gung은 그의 대답에서 이것을 정확하게 제안했습니다. ε
Alexis

답변:


10

데이터 정상적으로 분포 되어 있는지 테스트하는 것은 없습니다 . 데이터가 정상적으로 배포 되지 않은 테스트 만 있습니다 . 따라서 (많은 다른 것들이 있음) 인 Shapiro-Wilk와 같은 테스트가 있지만, null이 모집단이 정상이 아니며 대안 가설이 모집단이 정상이라는 테스트는 없습니다. H0:normal

당신이 할 수있는 모든 것은 당신이 관심있는 정규성으로부터 어떤 종류의 편차 (예를 들어, 왜도)를 파악하고, 그 편차가 당신을 방해하기 전에 얼마나 클 것인지를 알아내는 것입니다. 그런 다음 데이터의 완전 정규성 편차가 임계 값보다 작은 지 테스트 할 수 있습니다. 일반적인 아이디어에 대한 자세한 내용을 보려면 여기에서 내 대답을 읽는 것이 도움이 될 수 있습니다. 통계학자는 왜 중요하지 않은 결과가 귀무 가설을 받아들이는 것과 달리 귀무를 거부 할 수 없다는 것을 의미한다고 말합니까?


5

유의 수준 α iff p <α에서 H0를 기각하기 위해 p- 값을 계산하려고합니다. 제 인구가 정상적으로 분포되어 있음을 증명합니다.

정규 분포는 일련의 부가적인 iid 이벤트에 의해 데이터가 생성 될 때 발생합니다 (아래의 quincunx 이미지 참조). 그것은 피드백과 상관 관계가 없다는 것을 의미합니다. 데이터를 이끌어내는 프로세스처럼 들립니까? 그렇지 않다면 아마 정상이 아닙니다.

귀하의 경우에 프로세스 유형이 발생할 수 있습니다. "증명"할 수있는 가장 가까운 것은 사람들이 생각 해낼 수있는 다른 배포판을 배제하기에 충분한 데이터를 수집하는 것입니다. 다른 방법은 다른 예측과 함께 어떤 이론으로부터 정규 분포를 추론하는 것입니다. 데이터가 모든 데이터와 일치하고 아무도 다른 설명을 생각할 수 없다면 정규 분포에 유리한 좋은 증거가 될 것입니다.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

이제 특정 분포를 기대하지 않는다면 데이터를 요약하기 위해 정규 분포를 사용하는 것이 여전히 합리적 일 수 있지만 이것이 본질적으로 무지의 선택이라는 것을 인식 하십시오 ( https://en.wikipedia.org/wiki/ 원리 _ 최대 _ 엔트로피 ). 이 경우 모집단이 정규 분포인지 여부를 알고 싶지 않고 다음 단계가 무엇이든 정규 분포가 합리적인 근사치인지 알고 싶습니다.

이 경우 데이터 (또는 유사한 생성 된 데이터)와 함께 수행하려는 작업에 대한 설명을 제공해야합니다. "이 경우 정상 성을 가정하면 어떤 방식으로 나를 오도 할 수 있습니까?"


나는 실제로 데이터가 정상적이라는 것을 알고 있지만 (독립 컴퓨터에서 독립적으로 측정) 논문에 대한 몇 가지 가정을해야합니다. 설명과 예를 들어 주셔서 감사합니다 :)
petrbel

1
덧붙여서, Krieger는 N. Krieger (2012)에서 Galton 's Quincunx 의 사용에 대한 사랑스러운 비판을 제공했습니다 . “인구”는 누구와 무엇입니까? 역사적 논쟁, 현재의 논쟁, 그리고“인구 건강”을 이해하고 건강 불평등을 바로 잡는 의미. Milbank Quarterly , 90 (4) : 634–681.
Alexis

@petrbel이 상황은 위에서 설명한 것과는 미묘합니다. 각 관측치는 iid이지만 데이터를 생성하는 프로세스는 그렇지 않은 quincunx를 고안 할 수 있습니다. 로그 정규 예는 여기를 참조하십시오 : LIMPERT et al. 과학 전반의 로그 정규 분포 : 키 및 단서. 2001 년 5 월 / Vol. 51 No. 5. 바이오 사이언스.
Livid

1
@Alexis 저는 Krieger (2012)가 Limpert et al. (2001)과 petrbel은 "구조를 변경하면 동일한 객체에 대해서도 결과 확률이 변경되어 다른 인구 분포를 만들 수있다"고 지적했다.
Livid

2

데이터에서 정규성 가정을 "증명"할 수 없습니다. 가정에 대한 증거 만 제시하십시오. Shapiro-Wilk 테스트는이를 수행하는 한 가지 방법이며 정규성 가정을 정당화하기 위해 항상 사용됩니다. 추론은 정규성을 가정하여 시작한다는 것입니다. 그런 다음 묻습니다. 내 데이터는 내가 어리석은 가정을하고 있다고 제안합니까? Shapiro-Wilk로 테스트 해보십시오. 귀무 가설을 기각하지 못하면 데이터가 어리석은 가정을 제안하지 않습니다.

사람들은 Shapiro-Wilk 테스트의 맥락뿐만 아니라 실제로도 이와 유사한 논리를 항상 사용합니다. 선형 회귀를 사용하고 산점도를보고 선형 회귀가 어리석은 아이디어인지 확인하려고합니다. 또는 그들은 이분산성을 가정하고 이것이 어리석은 아이디어인지 알기 위해 오류 항을 표시합니다.Y,X


당신이 기술하는 연습은 petrbel이 언급 한 잘못된 접근법입니다. 검정은 일반적으로 일관되므로 표본 크기가 클수록 정규성 가정을 어리석은 생각으로 선언 할 확률이 커집니다. 표본 크기가 클수록 대부분의 절차의 점근 적 견고성으로 인해 정규성 가정이 덜 중요하기 때문에 이는 어리석은 일입니다.
Horst Grünbusch 2012 년

@ HorstGrünbusch Shapiro-Wilk 테스트가 데이터가 정상이라는 가정을 테스트하는 유효한 방법이라는 데 동의하지 않습니까?
TrynnaDoStat

당신이 그것이 유효한 접근법이라고 동의한다면, 나는 당신이 내 대답에 동의하지 않는 것이 확실하지 않습니다.
TrynnaDoStat

아니요. stats.stackexchange.com/questions/2492/… 의 인수를 참조하십시오 . 또한 두 표본의 분산이 동일하다는 귀무 가설을 검정하고 분산이 유의하게 다른 경우에만 Satterthwaite 검정을 사용하고 그렇지 않은 경우에는 등방성 검정에 대한 t- 검정을 사용하는 것은 유효하지 않습니다. 이 합성 절차를 직접 시뮬레이션하십시오 . 최대 의 제 1 종 오류율을 산출 할 수 있습니다 . 2α
Horst Grünbusch 2014 년

@ HorstGrünbusch 내 대답의 문제는 일반적으로 가설 검정의 아이디어와 관련이있는 것 같습니다. 구체적으로, 많은 상황에서 가설 검정이 표본 크기가 무한대에 가까워 질수록 확률 1로 널을 기각합니다.
TrynnaDoStat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.