Kolmogorov-Smirnov 검정을 사용하고 분포 모수를 추정 할 수 있습니까?


14

Kolmogorov-Smirnov 검정은 표본에서 모수를 추정 한 분포의 적합도를 검정하는 데 사용해서는 안된다는 것을 읽었습니다.

샘플을 두 개로 나누고 첫 번째 절반을 모수 추정에 사용하고 나머지 절반을 KS 테스트에 사용하는 것이 합리적입니까?

미리 감사드립니다


1
어떤 배포판을 테스트하고 싶은 이유는 무엇입니까?
gung-Monica Monica 복원

데이터가 지수 분포를 따르는 것으로 의심됩니다.
sortega

답변:


13

더 나은 방법은 시뮬레이션으로 p- 값의 임계 값을 계산하는 것입니다. 문제는 가정 된 값을 사용하지 않고 데이터에서 모수를 추정 할 때 KS 통계량 분포가 널 분포를 따르지 않는다는 것입니다.

대신 KS 테스트의 p- 값을 무시하고 대신 실제 데이터와 동일한 크기의 후보 분포 (의미있는 매개 변수 세트)에서 여러 데이터 세트를 시뮬레이션 할 수 있습니다. 그런 다음 각 세트에 대해 매개 변수를 추정하고 추정 된 매개 변수를 사용하여 KS 테스트를 수행하십시오. p- 값은 원래 데이터보다 더 철저한 시뮬레이션 된 집합의 테스트 통계 비율입니다.


2
나는 해결책이 약간 혼란 스럽다는 것을 안다. 후보 분포에 대한 "의미있는 매개 변수 세트"는 무엇을 의미합니까? 처음에 후보 분포의 모수를 모른다면 "의미있는 모수 세트"가 무엇인지 어떻게 알 수 있습니까?
Néstor

다른 모수 세트를 시도하여 차이가 있는지 여부를 확인할 수 있습니다 (정상적으로는 그렇지 않지만 일부 분포가있을 수 있음). 그런 다음 데이터의 과학에 대해 생각하거나 해당 지역의 전문가와 이야기하십시오. 시작해야 할 일반적인 아이디어를 얻을 수 있어야합니다. 예를 들어 나이지리아의 성인 남성의 평균 신장이 얼마인지 알고 있습니다. 그것이 긍정적이고 3 미터 미만이라는 것을 확신합니다.
Greg Snow

@GregSnow 현재이 게시물과 관련이 있기 때문에이 게시물을 보았습니다. 제안한 방법에 대한 이론적 정당성이 있는지 궁금합니다. 즉, 제안 된 "p- 값"이 실제로 0에서 1로 균일하게 분포되어 있음을 어떻게 알 수 있습니까? 제안 된 P-값은 귀무 가설 지금 분포의 집합이기 때문에 기존의 p- 값 것 같다 NTO 않습니다
renrenthehamster

@renrenthehamster, 당신은 좋은 지적이 있기 때문에 다른 조건에서 시뮬레이션을 제안했습니다. 일부 분포의 경우 (정상적인 것으로 예상 됨) 별 문제가되지 않지만 다른 실제 모수 값에 대해 다른 컷오프가 필요할 수 있습니다. 이 경우, 사용자 (분배 자)는 분포의 모양과 편한 매개 변수 세트 또는 범위를 모두 포함하는 테스트 할 의미있는 null을 찾아야합니다.
Greg Snow

1
@LilyLong은 시뮬레이션이 훨씬 어렵고 시간이 많이 걸리므로 테스트가 시뮬레이션보다 더 빠르고 쉬워 지도록 개발되었으며 초기 테이블 중 일부는 시뮬레이션에 의해 작성되었습니다. 많은 테스트가 이제 시뮬레이션으로 쉽게 대체 될 수 있지만 전통과 단순성으로 인해 더 오랜 시간 동안 우리와 함께있을 것입니다.
Greg Snow

7

표본 분할은 통계 분포 문제를 줄일 수 있지만 제거하지는 않습니다.

귀하의 아이디어는 추정치가 동일한 표본을 기반으로하기 때문에 모집단 값에 비해 '너무 가깝습니다'라는 문제를 피합니다.

당신은 그들이 여전히 추정하는 문제를 피하지 않습니다. 검정 통계량의 분포는 표로 작성된 것이 아닙니다.

이 경우 획기적으로 줄이지 않고 널 아래에서 거부율을 증가시킵니다.

Shapiro Wilk와 같은 매개 변수가 알려져 있지 않은 테스트를 사용하는 것이 더 좋습니다.

Kolmogorov-Smirnov 유형의 테스트에 참여한 경우 Lilliefors의 테스트 방법을 사용할 수 있습니다.

즉, KS 통계량을 사용하지만 검정 통계량 분포가 모수 추정의 영향을 반영하도록하려면 모수 추정치 하에서 검정 통계량의 분포를 시뮬레이션하십시오. (더 이상 배포 할 필요가 없으므로 각 배포마다 새 테이블이 필요합니다.)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors는 정규 및 지수 경우에 시뮬레이션을 사용했지만 특정 분포에 대해 쉽게 시뮬레이션을 수행 할 수 있습니다. R과 같은 경우 10,000 또는 100,000 개의 샘플을 시뮬레이션하고 널 아래에서 테스트 통계량의 분포를 얻는 것은 순간 문제입니다.

[대안은 같은 문제가 있지만 D' Agostino와 Stephens의 책에서 판단한 적합도 기술 (the Goodness-of-fit-techniques )) 의 Anderson-Darling을 고려하는 것이 덜 민감 할 수 있습니다. Lilliefors 아이디어를 적용 할 수는 있지만 비교적 간단하게 조정되는 것이 좋습니다.]

그러나 여전히 다른 접근법이 있습니다. 여러 특정 사례에서 모수 추정을 처리 할 수있는 (예를 들어 Rayner and Best의 책 참조) 적합 적합성에 대한 부드러운 테스트 패밀리가 있습니다.

* 그 효과는 여전히 상당히 클 수있다-아마도 일반적으로 허용되는 것으로 간주되는 것보다 더 클 수있다. 모모는 이에 대한 우려를 표명 할 권리가 있습니다. 더 높은 유형 I 오류율 (및 더 평평한 전력 곡선)이 문제인 경우 이는 개선되지 않을 수 있습니다!


1
"샘플 분할이 통계 분포 문제를 해결하는 방법"을 설명 할 수 있습니까? 제 생각에는 매개 변수는 서브 샘플에서 추정 된 다음 두 번째 서브 샘플의 KS 테스트에 연결되지만 null 분포에서 고려되지 않은 샘플링 오류와 관련이 있습니다. 비슷한 아이디어로 정규 분포에서 표본을 분리하고 하나의 하위 표본에서 표준 편차를 추정하고 두 번째 하위 표본의 t-dist 대신 표준 표준과의 평균 비교를 수행하는 것처럼 들립니다.
Momo

1
@Momo 'solve'가 너무 강합니다. '감소'가 더 좋습니다. 테스트중인 동일한 관측치에서 모수를 추정하는 경우 해당 효과를 고려하지 않는 한 분포에서 표본의 편차가 '너무 작습니다'-기각 률이 줄어 듭니다. 다른 샘플을 사용하면 해당 효과가 제거됩니다. 두 번째 샘플에서 추정 한 결과 매개 변수 값에는 여전히 샘플링 오류가 발생합니다. 그것은 테스트에 약간의 영향을 미치지 만 (유형 I 오류율을 보여줍니다), 동일한 데이터를 두 가지 모두 사용하는 극적인 바이어스 효과는 없습니다.
Glen_b-복지 모니카

@Momo '해결'을 제거하고 설명으로 대체하기 위해 내 의견을 편집했습니다.
Glen_b -Reinstate Monica

5

문제가 해결되지 않을까 걱정됩니다. 문제는 매개 변수가 동일한 샘플에서 추출 된 것이 아니라 모든 샘플에서 추정된다는 것입니다. KS 검정의 일반적인 널 분포의 도출은 기준 분포의 모수에서 추정 오차를 설명하지 않고 주어진 오차로 간주합니다. 이 문제에 대해 오랫동안 논의하고 솔루션을 제공하는 Durbin 1973 을 참조하십시오 .


1
이들은 실제로 두 가지 별개의 문제입니다. 동일한 데이터를 사용하여 모수를 추정하고 KS- 테스트를 수행하는 경우 일반적으로 데이터에 대해 분포를 테스트하기 전에 분포를 데이터에 맞게 조정 하기 때문에 p- 값이 비정상적 으로 증가하는 것을 볼 수 있습니다. 그러나 두 개의 독립적 인 샘플 세트를 사용하는 경우에는 그렇지 않습니다. 그러나 모수 추정값이 부정확 하면이 경우 얻는 p- 값 이 줄어들 수 있습니다. 이제는 기본적으로 (약간) 잘못된 분포 에 대해 테스트하기 때문 입니다.
fgp
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.