Kolmogorov–Smirnov 검정 : 표본 크기가 증가함에 따라 p- 값 및 ks 검정 통계량 감소

12

표본 크기가 증가함에 따라 p- 값과 ks- 검정 통계가 감소하는 이유는 무엇입니까? 이 Python 코드를 예로 들어 보겠습니다.

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

결과는 다음과 같습니다.

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

직관적으로 저는 n이 커짐에 따라 두 분포가 다르다는 것이 테스트가 더 확실하다는 것을 이해합니다. 그러나 표본 크기가 매우 크면 이와 같은 유사성 테스트의 요점은 무엇입니까? Anderson Darling 검정 또는 t- 검정이라고합니다 .n이 매우 큰 경우 분포는 항상 다음과 같습니다. "상당히"다르다!? 이제 저는 지구상에서 p- 값의 요점이 무엇인지 궁금합니다. 샘플 크기에 너무 의존합니다. p> 0.05이고 더 작게하려면 더 많은 데이터를 얻으십시오. p <0.05이고 더 높게하려면 일부 데이터를 제거하십시오.

또한 두 분포가 동일하면 ks-test 통계량은 0과 p- 값 1이됩니다. 그러나 예를 들어, n이 ks-test 통계량을 증가 시키면 분포가 시간이 지남에 따라 점점 더 비슷해 짐을 나타냅니다 (감소). 그러나 p- 값에 따라 시간이 지남에 따라 점점 더 달라집니다 (또한 감소합니다).

— 올리버 안젤 릴
소스

정규성 테스트가 '필수적으로 쓸모 없는가?'를 참조하십시오 . . 당신이 말하는 것은 사실이 아닙니다. 분포가 실제로 동일하다면 p- 값의 분포는 표본 크기를 늘려도 균일하게 유지됩니다.

— Scortchi-Monica Monica 복원

2

stats.stackexchange.com/questions/301628/… 과 관련하여 문제가 발생했습니다. 이로 인해이 테스트에 대해 회의적이었습니다.

— Aleksandar Jovanovic

데이터가 충분하면 임의로 작지만 0이 아닌 효과 크기가 통계적으로 유의하다는 것을 알 수 있습니다. 여기서 핵심은 통계적 유의성과 실제적 유의성의 차이를 인식하는 것입니다. 호머 심슨의 말을 잘못 인용하기 위해 "p- 값을 사용하여 원격으로도 사실을 증명할 수 있습니다".

— 원자력 왕

5

분포가 매우 유사하고 표본이 클수록 노이즈가 적으므로 검정 통계량은 감소합니다. 사용한 두 가지 이론적 분포를 비교하려면 "true"KS 통계량을 얻어야합니다. 더 많은 데이터를 추가 할 때 예상 KS 통계량은이 실제 값에 근접해야합니다. 그러나 KS 통계량이 감소하더라도 개별 분포의 추정치에 대한 신뢰도가 높기 때문에 실제로 두 가지 분포 (예 : p- 값 감소)임을 확신하게됩니다.

— adam.r
소스

3

실용적인 참고 사항 : 더 많은 데이터를 얻는 것은 쉽지 않습니다 (내가 그랬습니다). 원하는 값 을 얻기 위해 데이터를 제거하는 것은 학문적 사기이며, 잡히면 문제가 있습니다. $p$

여전히 값 자체는 제한된 값입니다. 기껏해야 그것은 분석의 시작일 뿐이며 끝이 아닙니다. 자세한 내용은 values 에 대한 ASA의 설명을 참조하십시오 . $p$ $p$

— 마틴 부 이스
소스

참조 주셔서 감사하지만 ks-test 통계가 왜 더 큰 n을 감소시키는 지 확실하지 않습니다.

— Oliver Angelil