ANOVA와 Kruskal-Wallis 검정의 차이점


20

저는 R을 배우고 분산 분석을 실험하고 있습니다. 나는 둘 다 실행하고있다

kruskal.test(depVar ~ indepVar, data=df)

anova(lm(depVar ~ indepVar, data=dF))

이 두 테스트간에 실질적인 차이가 있습니까? 내 이해는 둘 다 모집단이 동일한 평균을 갖는 귀무 가설을 평가한다는 것입니다.

답변:


28

테스트되는 가정과 가설에는 차이가 있습니다.

분산 분석 (및 t- 검정)은 명시 적으로 값 평균의 동등성 검정입니다. Kruskal-Wallis (및 Mann-Whitney)는 기술적으로 평균 순위 의 비교로 볼 수 있습니다 .

따라서 원래 값의 관점에서 Kruskal-Wallis는 평균 비교보다 더 일반적 입니다. 각 그룹의 임의 관측치가 다른 그룹의 임의 관측치보다 높거나 낮은 확률을 테스트합니다. 비교의 기초가되는 실제 데이터 양은 평균의 차이나 중앙값의 차이가 아니며 (두 샘플 경우) 실제로는 모든 쌍별 차이중앙값입니다 ( 샘플 간 Hodges-Lehmann 차이).

그러나 몇 가지 제한적인 가정을 선택하면 Kruskal-Wallis는 인구 평균 (예 : 중앙값)뿐만 아니라 등가 (예 : 중앙값)의 동등성 검정과 실제로는 다른 다양한 측정 값으로 간주 될 수 있습니다. 즉, 귀무 가설 하의 그룹 분포가 동일하다고 가정하고 대안 하에서 유일한 변화는 분포 이동 (소위 " 위치 이동 대안 "이라고도 함)이며 테스트이기도합니다. 인구의 평등의 의미 (그리고 동시에, 중앙값, 낮은 사 분위수 등).

[이러한 가정을하면 분산 분석에서와 마찬가지로 상대 이동의 추정치 및 간격을 얻을 수 있습니다. 그 가정없이 구간을 얻는 것도 가능하지만 해석하기가 더 어렵습니다.]

여기에서 , 특히 끝 부분 에 대한 답변을 보면 t- 테스트와 Wilcoxon-Mann-Whitney의 비교에 대해 논의합니다. 단지 두 샘플의 비교에 적용; 그것은 조금 더 자세하게 설명하고, 그 논의의 대부분은 Kruskal-Wallis vs ANOVA로 이어집니다.

실제적인 차이로 무엇을 의미하는지는 명확하지 않습니다. 일반적으로 비슷한 방식으로 사용하십시오. 두 가정이 모두 적용될 때, 이들은 일반적으로 상당히 유사한 종류의 결과를 제공하는 경향이 있지만 일부 상황에서는 확실히 다른 p- 값을 제공 할 수 있습니다.

편집 : 다음은 작은 샘플에서도 유추의 유사성의 예입니다. 여기서 정규 분포 (작은 샘플 크기)에서 샘플링 된 세 그룹 (두 번째 및 세 번째는 첫 번째 그룹과 비교)의 위치 이동에 대한 공동 수용 영역이 있습니다. 5 % 수준에서 특정 데이터 세트의 경우 :

Kruskal-Wallis 및 Anova의 위치 차이에 대한 허용 영역

수직, 수평 및 대각선 직선 세그먼트로 구성된 경계를 가진이 경우 KW에 대해 약간 더 큰 수용 영역 인 수많은 흥미로운 기능을 식별 할 수 있습니다 (이유는 파악하기 어렵지 않습니다). 두 지역은 여기서 관심있는 매개 변수에 대해 매우 유사한 것을 알려줍니다.


2
+1. 필요한 부분을 강조하기 위해 약간 편집했습니다. 동의 여부에 관계없이 지금 참조하십시오.
ttnphns

@ttnphns 편집 해 주셔서 감사합니다. 당신이 변경 한 것들 중 일부가 거기에 있었던 특별한 이유가 있기 때문에, 나는 원래의 일부를 다시 편집 할 수 있습니다. 그러나 아마도 이전에 그랬던 것처럼 그것을 썼는지 더 명확하게해야 할 것 입니다. 그러나 먼저 가능한 한 많은 변경 사항을 유지하는 가장 좋은 방법에 대해 신중하게 생각하고 싶습니다.
Glen_b-복지 주 모니카

4

그렇습니다. 는 anova동안 파라 메트릭 접근 방식 kruskal.test이 아닌 파라 메트릭 방법입니다. 따라서 kruskal.test배포 가정이 필요하지 않습니다.
실용적인 관점에서, 데이터가 왜곡되면 anova사용하기에 좋은 접근 방식이 아닙니다. 예를 들어이 질문 을 살펴보십시오 .


4
나는 Kruskal-Wallis ANOVA가 파라 메트릭 ANOVA와 비교하여 분포에 관해 완화 된 가정을하고 있다고 말하고 싶습니다. 각 그룹의 관찰은 비슷한 모양을 가진 집단에서 나옵니다 . 이분산성 또는 치우친 분포는 기존의 테스트 에서처럼 문제가 남아 있습니다.
chl

2
어떻게, @chl? 순위는 기울어 짐에 따라 변경되지 않으며 KW는 순위를 기반으로합니다. 내가 무엇을 놓치고 있습니까?
Peter Flom-Monica Monica 복원

6
3/π

H0

1
@ StéphaneLaurent 모양이 동일하지 않으면 추론이 나빠질 수 있습니다. 여기 내 예를 참조하십시오
Flask

3

Δ여기에 이미지 설명을 입력하십시오

()H0:{Δ=0}H1:{Δ0}()H0H0)()H0:{the distributions are equal}

()Δ>0Δ

xyn=1000H0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

여기에 이미지 설명을 입력하십시오

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

처음에 주장했듯이 KW의 정확한 구성에 대해서는 잘 모르겠습니다. 어쩌면 내 대답이 다른 비모수 적 테스트 (Mann-Whitney? ..)에 더 맞을 수도 있지만 접근법은 비슷해야합니다.


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionGlen의 답변, 의견 및이 사이트의 다른 많은 곳에서 언급했듯이 사실이지만 테스트가 수행하는 내용의 범위가 좁습니다. same shape/dispersion실제로는 본질적인 것이 아니지만 일부에서는 사용되며 다른 상황에서는 사용되지 않는 추가 가정입니다.
ttnphns 2013

PS 두 번째 예는 KW 테스트와 모순되거나 반박하지 않습니다. 테스트의 H0은 그렇지 않습니다 distributions are equal . 그렇게 생각하는 것은 실수입니다. H0는 단지“중력의 결로”의 두 지점이 서로 어긋나지 않는다는 것입니다.
ttnphns

H0

1
krusal.test()H0

1
네. the equality of the location parameters of the distribution올바른 배치입니다 ( '위치'는 일반적인 경우 평균 또는 중간 값으로 생각해서는 안 됨). 동일한 모양을 가정 하면 당연히이 같은 H0가 "동일 분포"가됩니다.
ttnphns

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.