표본 크기가 증가함에 따라 p- 값과 ks- 검정 통계가 감소하는 이유는 무엇입니까? 이 Python 코드를 예로 들어 보겠습니다.
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
결과는 다음과 같습니다.
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
직관적으로 저는 n이 커짐에 따라 두 분포가 다르다는 것이 테스트가 더 확실하다는 것을 이해합니다. 그러나 표본 크기가 매우 크면 이와 같은 유사성 테스트의 요점은 무엇입니까? Anderson Darling 검정 또는 t- 검정이라고합니다 .n이 매우 큰 경우 분포는 항상 다음과 같습니다. "상당히"다르다!? 이제 저는 지구상에서 p- 값의 요점이 무엇인지 궁금합니다. 샘플 크기에 너무 의존합니다. p> 0.05이고 더 작게하려면 더 많은 데이터를 얻으십시오. p <0.05이고 더 높게하려면 일부 데이터를 제거하십시오.
또한 두 분포가 동일하면 ks-test 통계량은 0과 p- 값 1이됩니다. 그러나 예를 들어, n이 ks-test 통계량을 증가 시키면 분포가 시간이 지남에 따라 점점 더 비슷해 짐을 나타냅니다 (감소). 그러나 p- 값에 따라 시간이 지남에 따라 점점 더 달라집니다 (또한 감소합니다).