R의 1- 표본 Kolmgorov-Smirnov 테스트에서 "타이가 없어야 함"


12

R에서 MYDATA의 정규성을 테스트하기 위해 Kolmogorov-Smirnov 테스트를 사용할 것입니다. 이것이 제가하는 일의 예입니다

 ks.test(MYDATA,"pnorm",mean(MYDATA),sd(MYDATA))

다음은 R이 제공하는 결과입니다.

 data:  MYDATA
 D = 0.13527, p-value = 0.1721
 alternative hypothesis: two-sided

 Warning message:
 In ks.test(MYDATA, "pnorm", mean(MYDATA), sd(MYDATA)) :
    ties should not be present for the Kolmogorov-Smirnov test

문제가 있다고 생각합니다. "경고"가이 경고에서 무엇을 의미합니까?


2
이 정규성 테스트를 왜 수행 하시겠습니까? 회귀 후 잔차의 정규성을 테스트하는 것이 중요 할 수 있지만 대부분의 경우 변수의 정규성을 테스트하는 것은 무의미 합니다.
EdM

2
동맹이 없더라도 KS 검정은 일반적인 정규성 검정이 아니라 완전히 지정된 분포에 대한 검정입니다 (데이터에서 평균과 sd를 추정합니다). 당신의 p- 값은 말도 안됩니다. Lilliefors 테스트에 대한 참조를 위해 사이트를 검색하십시오
Glen_b -Reinstate Monica

답변:


10

여기에 두 가지 문제가 있습니다.

KS 테스트는 연속 분포에 대한 것이므로 MYDATA는 타이 (반복 된 값)를 포함하지 않아야합니다.

KS 검정의 기본 이론에 따르면 데이터에서 분포의 모수를 추정 할 수 없습니다. ks.test에 대한 도움말이이를 설명합니다.


왜 않는 ks.test두 샘플 경우는 관계 모두에서 제거하고자 x하고 y? 내 말은, 나는 어떤 관계에없는 xy( unique(x)unique(y))하지만, 두 벡터는 공통의 값을 가지고있다. x과 안에 있는 값들 사이에서만 유대를 고려해서는 안 y되는가?
Nemesi 2016 년

@Nemesi 새로운 질문이 있으시면 질문하기 버튼을 사용하여 질문하십시오.
mdewey

나는 이것이 다른 질문이 되기에는 충분하지 않았지만 여기에있다 : stats.stackexchange.com/questions/389151/…
Nemesi

5

@mdewey가 설명했듯이 KS 테스트는 데이터에서 매개 변수를 추정 할 때 적합하지 않습니다. 정규성을 위해 Anderson-Darling 검정을 사용하는 다음 코드를 사용할 수 있으며 평균과 stddev를 제공하지 않아도됩니다. 이 테스트는 Lilliefors 테스트보다 정확도가 높습니다.

install.packages("nortest")
library(nortest)
ad.test(MYDATA)

"정확도"는 좁지 만 잘못된 검색을위한 것일 수 있습니다. 두 경우 모두, 이러한 테스트 중 하나의 대부분의 응용 프로그램은 최악의 경우 쓸모가없고 대부분의 경우 오도됩니다. 사람들은 종종 회귀 방법에 대한 가정을 잘못 이해 한 사람들이 그것들을 사용하도록 배웁니다. KS- 테스트의 상대적인 약점은 결과가 순진한 사용자에게 오도 될 가능성이 적기 때문에 더 강력한 대안을 사용하는 것이 실제로 "더 나은"것이라고 생각합니다.
DWin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.