초보자 질문 :
두 개의 개별 데이터 세트가 동일한 분포에서 나온 것인지 테스트하고 싶습니다. Kolmogorov-Smirnov 테스트가 제게 제안되었습니다.
Conover ( Practical Nonparametric Statistics , 3d)는 Kolmogorov-Smirnov Test가이 목적으로 사용될 수 있다고 말하지만, 그 동작은 불연속 분포와 함께 "보수적"이며, 이것이 무엇을 의미하는지 잘 모르겠습니다.
다른 질문에 대한 DavidR의 의견 은 "... 여전히 KS 통계에 기초하여 레벨 α 테스트를 할 수 있지만, 시뮬레이션과 같은 임계 값을 얻는 다른 방법을 찾아야합니다."
dgof R 패키지 ( article , cran )의 ks.test () 버전은 stats 패키지의 기본 버전 ks.test ()에없는 일부 기능을 추가합니다. 무엇보다도 dgof :: ks.test에는이 매개 변수가 포함됩니다.
시뮬레이션 값 : 이산 적합도 검정에 대해서만 몬테카를로 시뮬레이션으로 p- 값을 계산할지 여부를 나타내는 논리.
DavidR이 제안한 것을 달성하기 위해 simulate.p.value = T의 목적입니까?
그것이 그렇더라도 실제로 2 샘플 테스트에 dgof :: ks.test를 사용할 수 있는지 확실하지 않습니다. 연속 분포에 대한 2- 표본 검정 만 제공하는 것 같습니다.
y가 숫자 인 경우 x와 y가 동일한 연속 분포에서 도출되었다는 귀무 가설에 대한 2- 표본 검정이 수행됩니다.
대안 적으로, y는 연속 (누적) 분포 함수 (또는 그러한 함수)를 명명하는 문자열이거나 이산 분포를 제공하는 ecdf 함수 (또는 stepfun 클래스) 일 수 있습니다. 이 경우, x를 생성 한 분포 함수가 분포 y ... 인 경우 null에서 1- 표본 검정이 수행됩니다.
(배경 세부 사항 : 엄밀히 말하면, 기본 분포는 연속적이지만 데이터는 소수의 점에 매우 가깝습니다. 각 점은 시뮬레이션의 결과이며 -1과 1 사이의 10 또는 20의 실수입니다. 1. 시뮬레이션이 끝날 무렵, 그 숫자는 거의 항상 .9 또는 -.9에 매우 가깝기 때문에 몇 개의 값을 중심으로 모여서 이산 값으로 취급하고 있습니다. 데이터가 잘 알려진 분포를 따른다고 생각하는 이유.)
조언?