답변:
테스트되는 가정과 가설에는 차이가 있습니다.
분산 분석 (및 t- 검정)은 명시 적으로 값 평균의 동등성 검정입니다. Kruskal-Wallis (및 Mann-Whitney)는 기술적으로 평균 순위 의 비교로 볼 수 있습니다 .
따라서 원래 값의 관점에서 Kruskal-Wallis는 평균 비교보다 더 일반적 입니다. 각 그룹의 임의 관측치가 다른 그룹의 임의 관측치보다 높거나 낮은 확률을 테스트합니다. 비교의 기초가되는 실제 데이터 양은 평균의 차이나 중앙값의 차이가 아니며 (두 샘플 경우) 실제로는 모든 쌍별 차이 의 중앙값입니다 ( 샘플 간 Hodges-Lehmann 차이).
그러나 몇 가지 제한적인 가정을 선택하면 Kruskal-Wallis는 인구 평균 (예 : 중앙값)뿐만 아니라 등가 (예 : 중앙값)의 동등성 검정과 실제로는 다른 다양한 측정 값으로 간주 될 수 있습니다. 즉, 귀무 가설 하의 그룹 분포가 동일하다고 가정하고 대안 하에서 유일한 변화는 분포 이동 (소위 " 위치 이동 대안 "이라고도 함)이며 테스트이기도합니다. 인구의 평등의 의미 (그리고 동시에, 중앙값, 낮은 사 분위수 등).
[이러한 가정을하면 분산 분석에서와 마찬가지로 상대 이동의 추정치 및 간격을 얻을 수 있습니다. 그 가정없이 구간을 얻는 것도 가능하지만 해석하기가 더 어렵습니다.]
여기에서 , 특히 끝 부분 에 대한 답변을 보면 t- 테스트와 Wilcoxon-Mann-Whitney의 비교에 대해 논의합니다. 단지 두 샘플의 비교에 적용; 그것은 조금 더 자세하게 설명하고, 그 논의의 대부분은 Kruskal-Wallis vs ANOVA로 이어집니다.
실제적인 차이로 무엇을 의미하는지는 명확하지 않습니다. 일반적으로 비슷한 방식으로 사용하십시오. 두 가정이 모두 적용될 때, 이들은 일반적으로 상당히 유사한 종류의 결과를 제공하는 경향이 있지만 일부 상황에서는 확실히 다른 p- 값을 제공 할 수 있습니다.
편집 : 다음은 작은 샘플에서도 유추의 유사성의 예입니다. 여기서 정규 분포 (작은 샘플 크기)에서 샘플링 된 세 그룹 (두 번째 및 세 번째는 첫 번째 그룹과 비교)의 위치 이동에 대한 공동 수용 영역이 있습니다. 5 % 수준에서 특정 데이터 세트의 경우 :
수직, 수평 및 대각선 직선 세그먼트로 구성된 경계를 가진이 경우 KW에 대해 약간 더 큰 수용 영역 인 수많은 흥미로운 기능을 식별 할 수 있습니다 (이유는 파악하기 어렵지 않습니다). 두 지역은 여기서 관심있는 매개 변수에 대해 매우 유사한 것을 알려줍니다.
그렇습니다. 는 anova
동안 파라 메트릭 접근 방식 kruskal.test
이 아닌 파라 메트릭 방법입니다. 따라서 kruskal.test
배포 가정이 필요하지 않습니다.
실용적인 관점에서, 데이터가 왜곡되면 anova
사용하기에 좋은 접근 방식이 아닙니다. 예를 들어이 질문 을 살펴보십시오 .
set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")
> kruskal.test(list(x,y))
Kruskal-Wallis rank sum test
data: list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152
처음에 주장했듯이 KW의 정확한 구성에 대해서는 잘 모르겠습니다. 어쩌면 내 대답이 다른 비모수 적 테스트 (Mann-Whitney? ..)에 더 맞을 수도 있지만 접근법은 비슷해야합니다.
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersion
Glen의 답변, 의견 및이 사이트의 다른 많은 곳에서 언급했듯이 사실이지만 테스트가 수행하는 내용의 범위가 좁습니다. same shape/dispersion
실제로는 본질적인 것이 아니지만 일부에서는 사용되며 다른 상황에서는 사용되지 않는 추가 가정입니다.
distributions are equal
. 그렇게 생각하는 것은 실수입니다. H0는 단지“중력의 결로”의 두 지점이 서로 어긋나지 않는다는 것입니다.
the equality of the location parameters of the distribution
올바른 배치입니다 ( '위치'는 일반적인 경우 평균 또는 중간 값으로 생각해서는 안 됨). 동일한 모양을 가정 하면 당연히이 같은 H0가 "동일 분포"가됩니다.
Kruskal-Wallis는 가치 기반이 아닌 순위 기반입니다. 분포가 치우친 경우 나 극단적 인 경우에는 큰 차이가있을 수 있습니다.