Kolmogorov-Smirnov 테스트 기능 (두 샘플, 양면)의 출력을 이해하려고합니다. 다음은 간단한 테스트입니다.
x <- c(1,2,2,3,3,3,3,4,5,6)
y <- c(2,3,4,5,5,6,6,6,6,7)
z <- c(12,13,14,15,15,16,16,16,16,17)
ks.test(x,y)
# Two-sample Kolmogorov-Smirnov test
#
#data: x and y
#D = 0.5, p-value = 0.1641
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, y) : cannot compute exact p-value with ties
ks.test(x,z)
#Two-sample Kolmogorov-Smirnov test
#data: x and z
#D = 1, p-value = 9.08e-05
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, z) : cannot compute exact p-value with ties
ks.test(x,x)
#Two-sample Kolmogorov-Smirnov test
#data: x and x
#D = 0, p-value = 1
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, x) : cannot compute exact p-value with ties
내가 이해하지 못하는 몇 가지가 있습니다.
로부터 도움 , P 값이 가설을 의미 것으로 보인다
var1=var2
. 그러나 여기서는 테스트에 (p<0.05
) 라고 표시 됩니다.ㅏ. 말할 수 없다
X = Y
;비. 말할 수 있습니다
X = Z
;씨. 말할 수 없어
X = X
(!)
x가 그 자체와 다르다는 것 (!)을 나타내는 것 외에도 x=z
두 분포가 겹치는 지원이 없기 때문에 나에게는 매우 이상합니다 . 어떻게 가능합니까?
시험의 정의에 따르면
D
두 확률 분포 간의 최대 차이해야하지만, 경우에 예를 들어(x,y)
그이어야D = Max|P(x)-P(y)| = 4
(사용하는 경우P(x)
,P(y)
정규화되지 않은) 또는D=0.3
(가 규격화되어있는 경우). 왜 D와 다른가요?내가 작업하는 데이터가 동일한 값을 많이 가지고 있기 때문에 의도적으로 많은 관계 를 가지고 예제를 만들었습니다 . 이것이 왜 테스트를 혼란스럽게합니까? 반복되는 값의 영향을받지 않아야 할 확률 분포를 계산했다고 생각했습니다. 어떤 생각?