데이터를 계산하기 위해 불연속 분포를 맞추는 방법은 무엇입니까?


17

다음과 같은 카운트 데이터 히스토그램이 있습니다. 그리고 나는 이것에 개별 분포를 적용하고 싶습니다. 어떻게해야할지 모르겠습니다.여기에 이미지 설명을 입력하십시오

먼저 히스토그램에 불연속 분포와 같은 불연속 분포를 중첩하여 이산 분포의 모수를 구한 다음 Kolmogorov–Smirnov 검정을 실행하여 p- 값을 확인해야합니까?

이 방법이 올바른지 확실하지 않습니다.

이와 같은 문제를 해결하는 일반적인 방법이 있습니까?

카운트 데이터의 빈도 표입니다. 내 문제에서는 0이 아닌 카운트에만 집중하고 있습니다.

  Counts:     1    2    3    4    5    6    7    9   10 
 Frequency: 3875 2454  921  192   37   11    1    1    2 

업데이트 : 묻고 싶습니다 : R의 fitdistr 함수를 사용하여 데이터 피팅을위한 매개 변수를 얻었습니다.

fitdistr(abc[abc != 0], "Poisson")
     lambda  
  1.68147852 
 (0.01497921)

그런 다음 히스토그램 위에 포아송 분포의 확률 질량 함수를 플로팅합니다. 여기에 이미지 설명을 입력하십시오

그러나 포아송 분포가 카운트 데이터를 모델링하지 못하는 것 같습니다. 제가 할 수 있는게 있나요?


3
일반적인 방법은 후보 분포에 맞게 최대한의 가능성을 사용하는 것입니다. 모수를 얻기 위해 분포를 겹쳐서 의미하는 것은 분명하지 않지만, 잘 맞을 때까지 모수 값을 추측한다는 것은 거칠은 방법입니다. Kolmogorov-Smirnov는 여기서 유용하지 않습니다. 추론적인 결과를 제공하는 적절한 소프트웨어가 필요하므로, 소프트웨어를 사용하는 사람들이 도움을 줄 수 있도록 선택한 소프트웨어를 표시해야합니다. 히스토그램은 명확하지 않지만 간격이 있으면 분포가 잘 맞지 않을 수 있습니다.
닉 콕스

3
이러한 방식으로 KS 검정 을 사용하는 것은 까다로운 방법이지만 KS 검정이 불연속 분포에 대한 것이 아닌 경우에도 가능한 모든 모수 값에 대해 KS 통계량을 최소화하여 모수를 추정 할 수 있습니다. 그러나 그렇게하면 (적합성을 최적화) 최소 카이 제곱이 더 일반적인 접근 방식입니다. Nick Cox는 ML이 분명히해야 할 일이라고 제안했지만 거의 확실하게 더 효율적이고 표준 오류를 쉽게 얻을 수 있으며 다른 사람들이 더 쉽게 받아 들일 수 있습니다. (모멘트 방법과 같은 다른 가능성이 있지만 ML이 가장
중요합니다

저는 R을 사용하고 있습니다. MLE를 추정 할 때, 직업에 권장 할 알고리즘이 있습니까? ML을 찾은 후 다음에 어떻게해야합니까?
user1769197

나는 ?MASS::fitdistr이미 R 분포에 있기 때문에 여기서 시작 했습니다 (아래의 마지막 예를 참조하십시오. 음이 항의 매개 변수화에 대한 자세한 내용은 rnegbin을 참조하십시오). .... " ML을 찾은 후 다음에 무엇을해야합니까? "-그 시점에서 매개 변수 추정치 및 표준 오류가 있습니다. 그 외에도 무엇을 달성하고 싶습니까? -나는 추측 할 수 없다.
Glen_b-복지 주 모니카

'내 모델의 적합성을 어떻게 평가합니까?'라는 질문을 받았을 수도 있습니다. 이 경우 질문을 반영하여 업데이트 할 수 있습니까?
Glen_b-복지 모니카

답변:


17

불연속 분포를 맞추는 방법

이산 분포에 적합 (모수 추정)하는 데 사용되는 세 가지 주요 방법 *이 있습니다.

1) 최대 가능성

이것은 샘플을 공급할 수있는 최상의 기회를 제공하는 매개 변수 값을 찾습니다 (독립성, 상수 매개 변수 등과 같은 다른 가정이 주어짐)

2) 순간의 방법

처음 몇 모집단 모멘트가 샘플 모멘트와 일치하도록하는 매개 변수 값을 찾습니다. 종종 수행하기가 매우 쉽고, 많은 경우 상당히 합리적인 견적을 제공합니다. ML 루틴에 시작 값을 제공하는 데 사용되기도합니다.

3) 최소 카이 제곱

이는 개별 분포에 대한 카이-제곱 적합도 통계량을 최소화하지만 때로는 더 큰 데이터 세트의 경우 편의를 위해 최종 범주를 결합 할 수 있습니다. 그것은 종종 상당히 잘 작동하며 특정 상황에서 ML에 비해 몇 가지 장점이있을 수도 있지만 일반적으로 수렴을 반복해야합니다.이 경우 대부분의 사람들은 ML을 선호합니다.

처음 두 방법은 연속 분포에도 사용됩니다. 이 경우 세 번째는 일반적으로 사용되지 않습니다.

심지어는 (당신이 이산를 조정하는 경우), 공동 얻을 - 의미없이이는 예를 들어 KS-통계를 최소화하여 매개 변수를 추정하는 것은 매우 가능할 것이다 완전한 목록을 포함하고 공명 영역 이 있다면, 그것에서 너무 경사. R에서 일하고 있기 때문에 ML 이항 법에 대해서는 ML 추정이 매우 쉽습니다. 샘플이에있는 경우 다음 x과 같이 간단합니다 library(MASS);fitdistr (x,"negative binomial").

> library(MASS) 
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
     size         mu    
  3.6200839   6.3701156 
 (0.8033929) (0.4192836)

이는 모수 추정치 및 (점근) 표준 오차입니다.

푸 아송 분포의 경우 MLE과 MoM은 모두 표본 평균에서 푸 아송 모수를 추정합니다.

예제를 보려면 실제 카운트를 게시해야합니다. 히스토그램은 0과 1 카테고리가 결합되어 원시 카운트를 갖지 않도록 선택된 빈으로 수행되었습니다.

내가 알 수 있듯이 귀하의 데이터는 대략 다음과 같습니다.

    Count:  0&1   2   3   4   5   6  >6    
Frequency:  311 197  74  15   3   1   0

그러나 큰 숫자는 불확실합니다 (낮은 숫자가 막대 높이의 픽셀 수로 얼마나 정확하게 표현되는지에 달려 있음).이 숫자의 두 배와 같은 숫자의 몇 배가 될 수 있습니다 (원시 계수는 영향을 미칩니다) 표준 오류이므로 그 값에 관한 것인지 또는 두 배 큰 것인지 중요합니다)

처음 두 그룹을 결합하면 약간 어색해집니다 (일부는 가능하지만 일부 범주를 결합하면 덜 간단합니다). 처음 두 그룹에 많은 정보가 있으므로 기본 히스토그램이 덩어리 지도록하는 것이 가장 좋습니다. ).


* 불연속 분포를 피팅하는 다른 방법도 물론 가능합니다 (예를 들어 Quantile과 일치하거나 다른 적합도 통계를 최소화 할 수 있음). 내가 언급 한 것이 가장 일반적인 것으로 보입니다.


+1, 좋은 정보. 1)CV가 지원하는 마크 업 번호 (즉, 1.들여 쓰기로 이어짐) 대신 호기심으로 인해 종종을 사용하는 것처럼 보이는 이유는 무엇입니까?
gung-복직 모니카

1
@gung 대부분, 나는 그것에 대해 생각하지 않습니다-나는 목록을 입력하는 방식을 선호합니다. 나는 그것에 대해 생각 할 때하지만 난 (난 정말, 내가 "36"를 입력하면 나는 그들이 매우 성가신해야 어떻게 생각하는지에 입력 한 번호의 가격 인하의 편집을 찾을 하지 않았다 그렇게하면 ... "1"평균) "1"을 사용하는 것은 나에게 일어난다. "1)"대신 "1 \"을 입력하게됩니다. 그것을 인식하고 내가 의도하지 않은 일을하지 않도록 명시 적으로 중지 하십시오. 나는 5 년 동안의 레딧 에서이 행동에 너무 익숙해 져서 그것에 대해 생각조차하지 않습니다-나는 습관의 힘에 의해 자동으로 그것을 방해합니다.
Glen_b-복지국 모니카

1
@gung 들여 쓰기가 훨씬 작 으면 아마도 번호 매기기 위험을 감수하고 사용하는 경향이 있습니다. 그것이 서있는 것처럼, 나는 보통 그것을 볼 때 산만 해집니다. 그러나이 특별한 경우 나는 그것들을 부제목처럼 보이게 만들고 싶었습니다. 따라서 행동으로 인해 벗어나지 않아도 피할 수 있었을 것입니다. (다른 한편, 다른 사람들이 들여 쓰기를하기 위해 내 목록을 편집하기로 결정한 경우, 나는 일반적으로 자신을 기쁘게하기 위해 내버려 둡니다. 의미를 변경하지
마십시오

나는 자제하려고 노력할 것이다 ;-).
gung-복직 모니카

2

편집에서 일부 데이터를 제공하고 새로운 질문을 추가했습니다.

"이것은 카운트 데이터의 빈도 표입니다. 제 문제에서 저는 0이 아닌 카운트에만 집중하고 있습니다.

   Counts:     1    2    3    4    5    6    7    9   10 
Frequency:  3875 2454  921  192   37   11    1    1    2 

"여기서 카이 제곱 적합도 검정을 수행하는 방법을 예를 들어 주시겠습니까?"

이로 인해 추가 의견이 발생합니다.

  1. 제로를 갖지만 무시하기를 원할 수는 있지만 일반적으로 통계적이며 주제가 큰 사람들은 그 이유를 알고 싶어 할 것입니다.

  2. 0을 무시하기로 선택하면 0을 빼면 포아송 또는 음 이항과 같은 루틴을 실행할 수 없으므로 어려운 영토에 놓이게됩니다. 글쎄, 당신은 할 수 있지만 대답은 틀릴 것입니다. 제로 잘린 포아송 또는 제로 잘린 음의 이항과 같은 분포에 대한 특수 목적 함수 또는 명령이 필요합니다. 그것은 도전적인 일이며 당신이하고있는 일을 분명히하기 위해 헌신적 인 독서가 필요합니다.

  3. 카이-제곱 테스트를 수행하는 방법을 묻는 것은 내가 아주 간단히 말한 것을 실제로 이해하지 못했고 @Glen_b가 훨씬 더 자세하게 (그리고 내 마음에 매우 명확하게) 말했음을 암시합니다. 두 가지로 나누기 :

    • 예상 주파수가없는 카이-제곱 테스트는없고 매개 변수 추정이 없으면 예상 주파수가 없을 수 있습니다. 양방향 테이블에서 행과 열의 독립성을 테스트하는 카이-제곱 테스트 루틴에 가장 익숙 할 수 있습니다. 그것이 입문 과정에서 가장 많이 만난 카이-제곱 시험이지만, 일반적인 소프트웨어가 실제로 매개 변수 추정을 수행하여 예상 주파수를 얻는다는 점에서 카이-제곱 테스트에서 실제로는 매우 드문 일입니다. 그 외에도 귀하와 같은 가장 복잡한 문제에서는 먼저 모수 추정값을 얻어야합니다.

    • 카이-제곱 검정은 잘못된 것이 아니지만 최대 가능성으로 모수를 추정하는 경우 피팅 루틴이 추정치 및 표준 오차를 제공하고 즉시 검정 할 수 있으므로 적합하지 않습니다. @Glen_b는 이미 그의 대답에 예를 들었습니다.

부수적 인 문제는 히스토그램을 조정하여 변수의 불연속성을 존중하고 밀도가 아닌 확률을 나타내는 것이 더 명확하다는 것입니다. 명백한 차이는 변수의 불연속성을 고려하지 않은 기본 빈 선택의 인공물입니다.

업데이트 : 카이 제곱 테스트에 대한 보충 질문이 삭제되었습니다. 다른 누군가가 카이 제곱 테스트를 원하는 동일한 경로를 따르는 경우를 대비하여 위의 3 위를 세우고 있습니다.


활성 카운트를 모델링하려고하기 때문에 0을 무시해야합니다. Counts = 0은 비활성 카운트라고합니다.
user1769197

그것은 실질적인 선택입니다. 많은 분야에서 소위 두 부분 모델이 있는데,이 모델에서는 활성 대 비활성 모델과 활성 모델을 모델링합니다.
Nick Cox

"plot (table (abc), type ="h ")"를 수행하여 히스토그램을 조정하려고했습니다. 그러나 어떻게 확률을 보여줄 수 있는지 잘 모르겠습니다.
user1769197

나는 R을 사용하지 않지만 그것에 대한 조언을 얻을 수 있습니다. 별도로 문의해야 할 수도 있습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.