이것은 내 자신의 질문이지만, 내 자신의 2 센트를 답변으로 게시 하여이 질문에 대한 관점의 수를 더할 것입니다. 여기서 문제는 처음에 1 모수 분포를 데이터에 맞추는 것이 합리적인지 여부입니다. 단일 모수 분포 (예 : Poisson GLM 또는 시험 시행 변수가 고정 된 이항 GLM)를 사용하는 경우 분산은 자유 모수가 아니며 대신 평균의 일부 기능으로 제한됩니다. 이는 분산이 해당 분포의 구조를 따르는 지 확실하지 않은 상황에서 데이터에 1 모수 분포를 맞추는 것이 좋지 않다는 것을 의미합니다.
1 모수 분포를 데이터에 피팅하는 것은 거의 항상 나쁜 생각입니다. 데이터는 종종 제안 된 모델이 나타내는 것보다 더 지저분하며, 특정 1 모수 모델을 얻을 수 있다고 생각하는 이론적 이유가있는 경우에도 종종 데이터가 발생하는 경우가 있습니다 실제로는 하나의 매개 변수 분포와 다양한 매개 변수 값이 혼합되어 있습니다. 이것은 종종 분산에 대한 더 큰 자유를 허용하는 2- 모수 분포와 같은 더 넓은 모형과 동일합니다. 아래에 설명 된 것처럼 카운트 데이터의 경우 Poisson GLM에 적용됩니다.
문제에서 언급했듯이, 대부분의 통계 적용에서 최소한 처음 두 순간이 자유롭게 변할 수있는 분포 형태를 사용하는 것이 표준 관행입니다. 이를 통해 적합 모형은 모형에 의해 인위적으로 구속되지 않고 추정 된 평균 및 분산을 데이터가 지시 할 수 있습니다. 이 두 번째 매개 변수를 사용하면 모형에서 1 자유도 만 손실됩니다. 이는 데이터에서 분산을 추정 할 수 있다는 이점과 비교할 때 작은 손실입니다. 물론이 추론을 확장하고 왜곡을 피팅 할 수있는 세 번째 매개 변수, 첨도를 허용하는 네 번째 매개 변수 등을 추가 할 수 있습니다.
극소수의 예외를 제외하고 Poisson GLM은 나쁜 모델입니다. 필자의 경험에 따르면 Poisson 분포를 사용하여 데이터를 계산하는 것은 거의 항상 나쁜 생각입니다. 카운트 데이터의 경우 데이터의 분산이 푸 아송 분포에 비해 '과도하게 분산'되는 것이 매우 일반적입니다. 이론이 포아송 분포를 가리키는 상황에서도 종종 가장 좋은 모델은 분산이 자유 모수가되는 포아송 분포 의 혼합 입니다. 실제로 카운트 데이터의 경우 음 이항 분포는 속도 매개 변수에 대한 감마 분포 가있는 포아송 혼합물입니다.따라서 포아송 분포의 과정에 따라 계수가 도달한다고 생각하는 이론적 이유가 있더라도 종종 '과도 분산'이 있고 음 이항 분포가 훨씬 더 적합합니다.
데이터를 계산하기 위해 Poisson GLM을 피팅 한 다음 통계적 테스트를 수행하여 '과도 분산'을 확인하는 것은 시대를 초월한 것이며 결코 좋은 방법은 아닙니다. 다른 형태의 통계 분석에서는 두 모수 분포로 시작하지 않고 임의로 분산 제한을 선택한 다음 분포에서 모수를 제거하기 위해이 제한을 테스트합니다. 이러한 방식으로 작업을 수행함으로써 모델 선택에 사용 된 초기 가설 검정과 실제 모델 (포아송 또는 더 넓은 분포)로 구성된 어색한 하이브리드 절차를 실제로 만듭니다. 많은 상황에서 초기 모델 선택 테스트에서 하이브리드 모델을 작성하는 이러한 관행은 전체적인 모델이 나쁘다는 것을 보여주었습니다.
유사한 하이브리드 방법이 사용 된 유사한 상황은 평균 차이의 T- 검정에 있습니다. 예를 들어 통계 과정에서 먼저 Levene 검정 (또는 훨씬 더 까다로운 "거짓말 규칙")을 사용하여 두 모집단 간의 분산이 동일한 지 확인한 다음 데이터가이 테스트를 "통과"한 경우 권장했습니다. 등분 산을 가정하는 Student T- 검정을 사용하고 데이터가 검정에 "실패"한 경우 Welch의 T- 검정을 대신 사용합니다. 이것은 실제로 매우 나쁜 절차입니다 (예 : 여기 및 여기 참조)). 후자의 검정을 사용하는 것이 훨씬 좋습니다. 예비 가설 검정을 함께 모은 다음이를 사용하여 모형을 선택하는 어색한 복합 검정을 작성하는 것보다는 분산에 대한 가정이 없습니다.
카운트 데이터의 경우 일반적으로 음 이항 또는 준-포아송 모델과 같은 2- 파라미터 모델을 피팅하면 좋은 초기 결과를 얻을 수 있습니다. (후자는 실제 분포가 아니지만 여전히 합리적인 2- 모수 모델을 제공합니다.) 더 일반화가 필요한 경우, 일반적으로 과도한 수의 제로가있는 제로 인플레이션을 추가합니다. 데이터에서. Poisson GLM으로 제한하는 것은 인공적이고 감각이없는 모델 선택이며,과 분산을 테스트해도 훨씬 나아지지는 않습니다.
자, 다음은 사소한 예외입니다. 위 의 유일한 예외는 두 가지 상황입니다.
(1) 하나의 모수 분포에 대한 가정이 충족되었다고 믿는 이론상의 이유 는 매우 강력 하며 분석의 일부는 데이터에 대해이 이론적 모델을 테스트하는 것입니다. 또는
(2) 다른 (이상한) 이유로 분석의 목적은 데이터의 분산에 대한 가설 검정을 수행하는 것이므로 실제로이 분산을이 가정 된 제한으로 제한 한 다음이 가설을 검정하려고합니다.
이러한 상황은 매우 드 rare니다. 그것들은 데이터 생성 메커니즘에 대한 사전 이론적 지식 이 강한 경우에만 발생하는 경향이 있으며, 분석의 목적은이 기본 이론을 테스트하는 것입니다. 이는 엄격하게 통제 된 조건 (예 : 물리학)에서 데이터가 생성되는 매우 제한된 범위의 응용 분야에서 발생할 수 있습니다.