데이터 샘플이 감마 분포 제품군에 적합한 지 테스트하는 방법은 무엇입니까?


13

연속 랜덤 변수 X에서 생성 된 데이터 샘플이 있습니다. R을 사용하여 그린 막대 그래프에서 X의 분포가 특정 감마 분포를 따르는 것 같습니다. 그러나 나는이 감마 분포의 정확한 매개 변수를 모른다.

내 질문은 X 분포가 감마 분포 군에 속하는지 테스트하는 방법입니다. Kolmogorov-Smirnov 검정, Anderson-Darling 검정 등과 같은 적합도 검정이 있지만 이러한 검정을 사용할 때의 제한 중 하나는 이론적 분포의 매개 변수를 미리 알아야한다는 것입니다. 누구 든지이 문제를 해결하는 방법을 알려주시겠습니까?


아마도 내가 누락 된 것이 있지만 분포의 적합성을 테스트하기위한 테스트를 알고 이론적 분포의 값만 알면 감마 매개 변수의 최대 우도 추정기를 사용할 수 있습니다 모수 추정값을 얻기 위해 데이터 분포. 그런 다음이 추정값을 사용하여 검정에서 이론적 분포를 정의 할 수 있습니다.
David

데이빗, 답변 주셔서 감사합니다. 대답은 내가 생각한 것이기도하지만이 아이디어를 뒷받침 할 수있는 이론이 있는지 확실하지 않습니다. 나에게 대답 할 수 있습니까?
user8363

R을 사용한다면 이런 종류의 작업을 수행 할 수있는 기능을 갖춘 fitdistrplus 패키지를 살펴 보는 것이 좋습니다.
gung-모니 티 복원

답변:


8

이 질문은 히스토그램 비교가 아니라 정확한 통계 테스트를 요구한다고 생각합니다. 사용시 추정 파라미터와 콜 모고 로프 - 스 미르 노프 테스트를 전혀 추정 파라미터의 경우와 달리, 귀무 하의 테스트 통계 분포는 테스트 분포에 의존한다. 예를 들어 (R에서)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

~으로 이끌다

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

우리가 얻는 동안

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

동일한 샘플 x에 대해. 따라서 유의성 수준 또는 p- 값은 null 하에서 Monte Carlo 시뮬레이션에 의해 결정되어야하며, 추정 된 분포 하에서 시뮬레이션 된 표본에서 Kolmogorov-Smirnov 통계의 분포를 생성해야합니다 (관찰 된 표본이 주어진 경우 결과에 약간의 근사치가 있음) null 아래에서도 다른 분포에서 비롯됩니다.


1
(+1) 추정 분포에서 표본을 시뮬레이션하는 것이 왜 올바른지 잘 모르겠습니다. 매개 변수에 대해 사전이 필요하다고 생각했을 것입니다. 가능한 모든 분포에서 표본을 추출하십시오 ... 조금 더 설명해 주시겠습니까?
Elvis

1
시안, 당신의 대답은 정확히 내가 걱정하는 것입니다. "추정 된 모수와 함께 Kolmogorov-Smirnov 검정을 사용하는 경우 null 아래의 검정 통계량 분포는 검정 된 분포에 따라 다릅니다"라는 의미입니다. 그러나 우리는 X의 분포를 모릅니다. 더 정확하게는 귀무 가설 하에서 X의 분포 모수를 알지 못하므로 검정 통계량의 분포는 몬테 카를로를 사용합니다. P 값을 얻기 위해 몬테 카를로를 사용하지 않고 다른 방법으로 해결할 수 있습니까? 감사합니다
user8363

"관측 된 표본이 널 아래에서도 다른 분포에서 나왔다"는 사실을 고려하기 위해 표본을 부트 스트랩하여 각 반복에서 매개 변수를 재추 정하는 것이 적절하지 않습니까?
Elvis

1
@Elvis (1) : 이것은 적합 문제의 우수성에 대한 베이지안 해상도가 아닌 고전적인 통계입니다. 위치 척도 모수가있는 분포의 경우 모의 표본을 시뮬레이션하는 데 사용되는 모수를 선택하는 것은 중요하지 않습니다.
시안

1
@Elvis (2) : 나는 방금 학생들과 논의한 것입니다! 부트 스트랩은 null이 아닌 데이터의 실제 분포에서 Kolmogorov-Smirnov 거리의 동작을 평가하는 데 도움이됩니다! Fisher-Neyman-Pearson의 원칙은 중요한 것은 Kolmogorov-Smirnov 거리가 null 미만일 때의 거동이므로 관측 된 거리가 널 아래의 분포에 비해 너무 극단적 인 경우 거부됩니다.
시안

4

데이터에 대한 감마 분포를 가정하고 매개 변수의 MLE을 계산하고 이론 밀도를 데이터의 히스토그램과 비교하십시오. 둘이 매우 다른 경우 감마 분포는 데이터의 근사치입니다. 공식적인 검정의 경우, 가장 적합한 감마 분포를 경험적 분포 및 유의성 검정과 비교하여 Kolmogorov-Smirnoff 검정 통계량을 계산할 수 있습니다.


3
+1, 이것은 확실한 해답입니다. 그러나 히스토그램이 아닌 이론적 감마에 대한 qq- 플롯을 검토하는 것이 좋습니다. 편차를 평가하는 것이 더 쉽습니다.
gung-모니 티 복원

1
문제는 KS 테스트에서 이론적 분포가 데이터에서 추정 된 것이 아니라 미리 주어진다고 가정한다는 것입니다. 시안은 (부분적으로) 그 점에 대답했습니다.
Elvis

먼저이 데이터 샘플을 사용하여 MLS 추정값을 얻고 감마 분포에서 MLS 추정값을 사용한 다음 KS 테스트를 사용하여 데이터를 감마 분포 (추정 된 매개 변수 포함)와 비교한다는 의미입니까?
user8363

Elvis, 이론적 분포의 모수를 알 수없고 추정해야하는 문제를 해결하는 방법을 알려주십시오. 이 CAS에서 KS 검정을 사용하여 가설을 비교적 정확하게 판단 할 수있는 방법은 무엇입니까? 감사합니다!
user8363

1
@ Elvis : 감마 분포의 경우 정확한 도출이 가능하지 않다고 생각합니다. cdf 자체는 닫힌 형태로 제공되지 않습니다. 또한, 형상 파라미터가 스케일 또는 위치가 아니라는 것은 형상 파라미터의 각 값에 대해 상이한 분포가 있다는 것을 의미한다.
Xi'an
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.