짝을 이루지 않은 t- 검정 대신 Wilcoxon rank-sum test를 언제 사용해야합니까?


26

이것은 프랭크 하렐 쓴 무엇에 대한 후속 질문은 여기에 :

내 경험상 정확한 t 분포에 필요한 샘플 크기는 종종 샘플 크기보다 큽니다. Wilcoxon 부호가있는 테스트는 말한 것처럼 매우 효율적이며 강력하므로 t 테스트보다 거의 항상 선호합니다.

내가 정확하게 이해한다면-두 개의 일치하지 않는 샘플의 위치를 ​​비교할 때 샘플 크기가 작은 경우 짝을 이루지 않은 t- 검정보다 Wilcoxon 순위 합계 테스트를 사용하는 것이 좋습니다.

두 그룹의 표본 크기가 비교적 큰 경우에도 짝을 이루지 않은 t- 검정보다 Wilcoxon 순위 합 검정을 선호하는 이론적 상황이 있습니까?

이 질문에 대한 나의 동기는 단일 표본 t- 검정의 경우, 작은 분포의 비대칭 표본에 대해이를 사용하면 잘못된 유형 I 오류가 발생한다는 관찰에서 비롯됩니다.

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
나에게 0.0572는 0.05에 가깝습니다.
mark999

Hi Mark-귀무 가설을 100000 회 반복하여 수행 할 때 이러한 수준의 차이는 0.05에서 얻을 수 없습니다. 일반적으로 우리는 0.05에서 SQRT (0.05 * 0.95 / 100000)의 두 번 같은의 차이 플러스 마이너스 뭔가를 기대
탈 Galili 한

1
나는 그것이 틀렸다는 것에 동의합니다. 나는 그것이 실제적인 목적을 위해 충분히 가까워 보인다는 것을 의미했습니다.
mark999

1
관련 질문 : t- 테스트 또는 비모수 적 테스트 중에서 선택하는 방법 (예 : 작은 샘플의 Wilcoxon)- 페어링 및 비 페어링 테스트를 모두 고려하는 Wilcoxon 및 Brunner-Munzel과 같은 Wilcoxon의 대안. Frank Harrell은 위의 추출물보다 더 자세하게 자신의 접근 방식에서 정당화되는 이유를 설명하는 훌륭한 해답이 있습니다 (예 : 단조 변환에서 순위 불변의 중요성).
Silverfish

H0:μ=50

답변:


23

그렇습니다. 예를 들어, 무한 분산을 갖는 분포에서 샘플링하면 Wilcoxon이 아닌 t- 검정이 손상됩니다. 비모수 통계 방법 (Hollander and Wolfe)을 참조하면, t 검정에 대한 Wilcoxon의 점근 적 상대 효율 (ARE)은 균일 분포의 경우 1.0, 물류의 경우 1.097 (즉, Wilcoxon이 더 좋음), 1.5의 경우입니다. 이중 지수 (Laplace) 및 지수의 경우 3.0

Hodges와 Lehmann은 다른 테스트에 비해 Wilcoxon의 최소 ARE는 0.864이므로 다른 것에 비해 약 14 % 이상의 효율을 잃을 수 없습니다. (물론 이것은 점근 적 결과입니다.) 따라서 Frank Harrell이 Wilcoxon을 기본값으로 사용하는 것은 아마도 저 자신을 포함한 거의 모든 사람이 채택해야합니다.

편집 : 신뢰 구간을 선호하는 사람들을 위해 의견의 후속 질문에 응답하여 Hodges-Lehmann 추정기 는 Wilcoxon 검정에 "대응"하는 추정기 이며 그 주변에 신뢰 구간을 구성 할 수 있습니다.


1
Wilcoxon 검정을 사용하는 경우 신뢰 구간을 얻는 쉬운 방법이 있습니까? 사람들이 파라 메트릭 방법보다 p- 값에 너무 많은 것을 강조하도록 권장하는 것 같습니다.
mark999

예, Hodges-Lehmann 추정기는 관련 추정기이며, 향후 독자가 의견을 검토 할 필요가 없도록 응답 본문을 편집했습니다.
jbowman

감사합니다. 나는 Hodges-Lehmann 추정기에 익숙하지 않지만, 이에 대해 알아낼 수있는 것을 볼 것입니다.
mark999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftware 는 R을 사용하여 Hodges-Lehmann 추정값과 신뢰 구간을 얻는 방법을 보여줍니다.
Frank Harrell

1
(+1) 지독한 반 랭크 전통 주의자. 그러나 순위 테스트의 과제는 가설이 모호하다는 것입니다. 일반적으로 t- 검정과 같은 가설이 아닙니다. t- 검정은 항상 평균 차이를 테스트하고 Wilcoxon은 가중 평균 순위 차이를 테스트합니다. 순위-평균 차이가 통계적으로 유의하면 분포가 평균이 같더라도 분포가 달라야한다는 것을 알 수 있습니다. 모든 테스트에서 분포 차이를 탐지하기위한 테스트는 없습니다 . 나는 해석 가능성을 선호하기 때문에 많은 것을 말합니다. (1/2)
AdamO

24

질문에 대한 의견으로 우리의 토론으로 다시 돌아가 드리겠습니다 . Wilcoxon sum-rank 테스트는 Mann-Whitney U 테스트와 동등합니다 (두 개 이상의 샘플에 대한 직접 확장을 Kruskal-Wallis 테스트라고합니다). 당신은에서 볼 수있는 위키피디아 뿐만 아니라에서 맨 - 휘트니 (또는 크루스 칼 - 월리스는) 일반적으로하지 수단 또는 중간 값을 비교하는 것이 텍스트입니다. 이 값의 전반적인 유병률을 비교합니다. 어떤 샘플이 "확률 적으로"더 큰지. 테스트는 배포가 필요 없습니다. T- 검정은 평균을 비교합니다. 정규 분포를 가정합니다. 따라서 검정은 서로 다른 가설에 관여합니다.. 대부분의 경우 평균을 구체적으로 비교할 계획이 아니라 값에 따라 어떤 샘플이 더 큰지 알고 싶기 때문에 Mann-Whitney가 기본 테스트가됩니다. 반면에 두 분포가 대칭 인 경우 한 표본이 다른 표본보다 "더 큰"지 여부를 테스트하는 작업이 두 평균을 비교하는 작업으로 퇴화 한 다음 분포가 동일한 분산으로 정규 분포 인 경우 t- 검정이 다소 더 강력한.


테스트중인 가설의 의미에 답을 묶어 +1.
Josh Hemann

"어떤 샘플이"확률 적으로 "더 크다"는 것은 "샘플 중 어느 것이 일반적으로 다른 것보다 더 큰 값을 취하는가"를 의미합니까? 그렇지 않다면 무슨 뜻입니까? 이것에 대해 좀 더 자세히 설명해 주시겠습니까?
Erdogan CEVHER

1
@ Erdogan, 예, 우리는 당신이 말한 것처럼 말할 수 있습니다. 엄격한 표현법은 다음과 같습니다. 무작위로 선택된 개체 쌍 (각 샘플에서 하나씩)에서 "확률 적으로 우세한"샘플의 개체는 다른 샘플의 개체보다 확률이> 0.5입니다.
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.