250 단위의 샘플이 있습니다. 분포는 비대칭입니다. 모집단의 중앙값이 3.5와 다르다는 가설을 검정하고 싶습니다. 따라서 1- 표본 검정이 적합하다고 생각합니다. 분포가 대칭이 아니기 때문에 Wilcoxon 순위 검정이 적합하지 않다는 것을 알고 있습니다. 부호 테스트가 사용하기에 적합합니까? 만약 누군가가 다른 시험을 추천 할 수 없다면?
250 단위의 샘플이 있습니다. 분포는 비대칭입니다. 모집단의 중앙값이 3.5와 다르다는 가설을 검정하고 싶습니다. 따라서 1- 표본 검정이 적합하다고 생각합니다. 분포가 대칭이 아니기 때문에 Wilcoxon 순위 검정이 적합하지 않다는 것을 알고 있습니다. 부호 테스트가 사용하기에 적합합니까? 만약 누군가가 다른 시험을 추천 할 수 없다면?
답변:
초과하는 데이터 수 확률이 알려지지 않은 이항 분포 . 이것을 사용하여 이항 테스트를 수행하십시오. 대안에 대하여 .
이 포스트의 나머지 부분에서는 기본 모델을 설명하고 계산을 수행하는 방법을 보여줍니다. R
그것들을 수행하기 위한 작업 코드를 제공합니다 . 기본 가설 검정 이론의 확장 된 계정이 제공됩니다 에 내 대답은 "통계 테스트에서 P-값과 t-값의 의미는 무엇입니까?" .
가치가 합리적으로 다양하다고 가정하면 ), 귀무 가설 하에서 임의로 샘플링 된 값은 초과 확률 (이후 인구의 중간 가치로 특징 지워집니다). 모두 가정 값은 무작위로 독립적으로 샘플링되었으며 그 수는 그러므로 이항을 가질 것이다분포. 이 번호를 "카운트"라고하겠습니다..
반면에 모집단 중앙값이 다른 경우 임의로 샘플링 된 값을 초과 할 가능성 ~와 다를 것이다 . 이것은 대립 가설입니다.
널 상황을 다른 대안과 구별하는 가장 좋은 방법은 다음과 같은 값을 보는 것입니다. 그것은 null 아래에있을 가능성이 높고 대안 아래에는 거의 없습니다. 이들은 근처의 값입니다 의 , 동일 . 따라서 테스트에 중요한 영역 은 상대적으로 멀리 떨어진 값으로 구성됩니다.: 가까운 또는 가까이 . 그러나 얼마나 멀리 그들은 다음과 같은 중요한 증거를 구성해야합니다. 인구 중앙값이 아닙니까?
에서는 의미의 표준에 따라 달라집니다 : 이 호출되는 테스트 크기 종종 되나,. 귀무 가설 하에서 다음에 가까워 야합니다. 그 기회 중요한 지역에있을 것입니다.
일반적으로 어떤 대안을 적용 할 것인지에 대한 선입견이없는 경우 -우리는 그 기회의 절반이되도록 중요 지역을 건설하려고 노력합니다. , 그 나머지 절반은 , 그 높다. 우리는 분포를 알고 있기 때문에 귀무 가설 하에서이 정보는 임계 영역을 결정하기에 충분합니다.
기술적으로 계산을 수행하는 두 가지 일반적인 방법이 있습니다. 이항 확률을 계산하거나 정규 분포로 근사값을 구합니다.
백분율 포인트 (사 분위수) 기능을 사용하십시오. 예 R
를 들어,에서 qbinom
호출되고 다음과 같이 호출됩니다.
alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)
에 대한 출력 이다
109 141
이는 임계 영역이 모든 낮은 값으로 구성됨을 의미합니다. 사이 (포함) 과 모든 높은 가치와 함께 사이 (포함) 과 . 점검으로, 널이 참일 때 해당 지역에있을 R
확률을 계산 하도록 요청할 수 있습니다 k
.
pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))
출력은 , 매우 크지 않은 –그 자체. 임계 영역은 정수로 끝나야하므로 일반적으로이 실제 테스트 크기를 공칭 테스트 크기 와 정확히 동일하게 만들 수는 없습니다.그러나이 경우 두 값은 실제로 매우 가깝습니다.
이항의 평균 분포는 그리고 그 차이는 표준 편차를 . 이항 분포를 정규 분포로 바꿉니다. 표준 정규 분포는 그것의 확률보다 작은 R
명령 으로 계산 된
qnorm(alpha/2)
정규 분포는 대칭이므로 보다 큰 확률로 . 따라서 임계 영역은 그 이상 표준 편차 . 이 임계 값을 계산하십시오.. 계산은 다음과 같이 한 번에 수행 할 수 있습니다
250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)
이후 정수 여야합니다. 중요한 지역에 속할 때 이하 이상. 이 답변은 정확한 이항 계산을 사용하여 얻은 것과 동일합니다. 이것은 일반적으로 더 가까이 ~보다 또는 , 표본 크기는 보통에서 큰 (수십 이상)이며 아주 작지 않습니다 (몇 퍼센트).
이 테스트 는 모집단에 대해 아무 것도 가정 하지 않기 때문에 (중앙값에 초점을 맞출 가능성이 많지 않다는 점을 제외하고) 모집단에 대한 특정 가정을 만드는 다른 테스트만큼 강력하지 않습니다. 그럼에도 불구하고 테스트에서 null을 거부하면 전력 부족에 대해 걱정할 필요가 없습니다. 그렇지 않으면, 당신이 기꺼이 생각 하는 것과 인구에 대해 결론 을 내릴 수있는 것 사이에 섬세한 절충점을 만들어야 합니다.