Kolmogorov-Smirnov 검정 (python)의 p- 값을 해석하는 방법은 무엇입니까?


30

동일한 분포에서 가져온 두 가지 샘플 (파이썬 사용)을 테스트하려고합니다. 이를 위해 scipy.stats의 통계 함수 ks_2samp를 사용합니다. 2 개의 값을 반환하고 해석하는 데 어려움이 있습니다. 도와주세요!

답변:


23

Stijn이 지적했듯이 ks 검정은 D 통계량과 D 통계량에 해당하는 p- 값을 반환합니다. D 통계량은 두 샘플의 CDF 사이의 절대 최대 거리 (정상)입니다. 이 수가 0에 가까울수록 두 표본이 동일한 분포에서 추출되었을 가능성이 높습니다. ks 테스트에 대한 Wikipedia 페이지를 확인하십시오. 좋은 설명을 제공합니다 : https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

ks 검정에서 반환 된 p- 값은 다른 p- 값과 동일한 해석을 갖습니다. p- 값이 유의 수준보다 작 으면 두 분포가 동일한 분포에서 추출되었다는 귀무 가설을 기각합니다. 절차에 관심이있는 경우 D 통계량을 p- 값으로 변환하기위한 온라인 테이블을 찾을 수 있습니다.


답변 주셔서 감사합니다. 사실, 나는 2 값 D와 P 값의 의미를 알고 있지만 그 사이의 관계를 볼 수 없습니다. 유의 수준을 어떻게 정의 할 수 있습니까? D 통계량을 p- 값으로 변환하기위한 링크를 제공해 주시겠습니까?
meri


@CrossValidatedTrading 다음 D-STAT-에-p 값이 테이블에 대한 귀하의 링크는 지금 404이다
james.garriss

@CrossValidatedTrading 양측 KS 테스트에서 p- 값과 D- 값 사이에 관계가 있어야합니까? 어떤 경우에는 비례 관계를 보았는데, 여기서 p- 값에 따라 D- 통계량이 증가합니다. 더 큰 차이 (더 큰 D- 통계량)를 갖는 두 개의 곡선이 더 크게 다를 수 있습니다 (낮은 p- 값).
Thomas Matthew

p 값이> 0.05 인 경우 두 샘플은 동일하고 균형을 유지해야합니다.
user798719

5

ks_2samp에 대한 Google 검색을 수행 할 때 첫 번째 히트는 웹 사이트입니다. 그것에 기능 사양을 볼 수 있습니다 :

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

a 및 b 매개 변수는 데이터 시퀀스이거나 ks_2samp를 사용하려면 CDF를 계산해야합니까?
meri

@meri : 내가 링크 한 페이지에 예가 있습니다.
Stijn
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.