GLM의 과대 산포 테스트는 실제로 * 유용 *합니까?


15

응답 변수의 분산을 제한하는 모델을 사용할 때마다 GLM에서 '과도 분산'현상이 발생하며 데이터는 모델 제한이 허용하는 것보다 큰 분산을 나타냅니다. 이것은 Poisson GLM을 사용하여 카운트 데이터를 모델링 할 때 일반적으로 발생하며 잘 알려진 테스트로 진단 할 수 있습니다. 검정 결과 과대 산포의 통계적으로 유의미한 증거가있는 경우, 분산 모형을 사용하여 원래 모형에서 발생하는 제한에서 벗어나는 광범위한 분포를 사용하여 모형을 일반화합니다. 포아송 GLM의 경우, 음 이항 또는 준-포아송 GLM으로 일반화하는 것이 일반적입니다.

이 상황은 명백한 반대 의견이 있습니다. 왜 Poisson GLM으로 시작합니까? (상대적으로) 자유 분산 모수를 갖는 더 넓은 분포 형태로 직접 시작할 수 있으며 분산 매개 변수를 데이터에 적합하게하여과 분산 테스트를 완전히 무시할 수 있습니다. 데이터 분석을 수행하는 다른 상황에서 우리는 거의 항상 처음 두 순간의 자유를 허용하는 분포 형태를 사용합니다. 왜 여기서 예외가 발생합니까?

내 질문 : 분산을 수정하는 분포 (예 : 포아송 분포)로 시작한 다음과 분산 테스트를 수행 할만한 이유가 있습니까? 이 절차는이 운동을 완전히 건너 뛰고보다 일반적인 모델 (예 : 음 이항, 준-포아송 등)으로 바로가는 것과 어떻게 비교됩니까? 다시 말해, 항상 자유 분산 모수를 갖는 분포를 사용 하지 않는 이유 는 무엇입니까?


1
내 추측에 따르면, 기본이 실제로 포아송이라면 glm 결과는 추정치와 같은 잘 알려진 좋은 특성을 나타내지 않을 것입니다. 모델이 사용되었습니다. 추정치는 아마도 편견이나 MLE이 아닐 수도 있습니다. 그러나 그것은 단지 직관 일 뿐이고 틀릴 수도 있습니다. 좋은 답변이 무엇인지 궁금합니다.
mlofton 2019

3
필자의 경험에 따르면,과 분산에 대한 테스트는 (역설적으로) 과분 산이 존재할 수 없다는 것을 (데이터 생성 프로세스에 대한 지식을 통해) 알 때 주로 사용됩니다. 이와 관련하여과 분산 테스트는 선형 모델이 데이터의 모든 신호를 선택하는지 여부를 알려줍니다. 그렇지 않은 경우 모형에 공변량을 더 추가하는 것을 고려해야합니다. 그렇다면 더 많은 공변량이 도움이 될 수 없습니다.
Gordon Smyth

@ GordonSmyth : 좋은 대답이라고 생각합니다. 당신이 그것을 자신의 답변으로 바꾸고 싶지 않다면, 나는 그것을 내 것으로 접을 것입니다.
Cliff AB

1
@GordonSmyth는 적합도 검정의 우수성으로서 이탈도 분석에 대해 항상 귀찮게 한 가지를 얻습니다. 공변량이 누락되면 과분 산이 발생합니다. 자료를 가르치는 방법에 관한 몇 가지 문제를 제안합니다. 나는 수업을 범주 형으로 가르치고 교과서는 이것을 강력하게 강조하지 않습니다.
guy

1
@guy 네, 맞습니다. 사람들은 잔차 이탈이 항상 카이 제곱 분포라고 가정하는 경향이 있습니다. 우리는 최근 교과서 doi.org/10.1007/978-1-4419-0118-7 에서 이러한 점들을 더 잘 처리하려고 노력했지만 공간 제한 내에서 모든 것을 다루기가 어렵습니다.
Gordon Smyth 's

답변:


14

원칙적으로 99 %의 시간이 더 유연한 모델을 사용하는 것이 좋습니다. 그렇게 말하면서, 왜 그렇지 않을 수 있는지에 대한 두 가지 반의 주장이 있습니다.

(1) 유연성이 낮을수록 더 효율적인 추정이 가능합니다. 분산 모수는 평균 모수보다 덜 안정적인 경향이 있으므로 고정 평균-변이 관계 가정은 표준 오차를 더 안정화시킬 수 있습니다 .

(2) 모델 확인. 이론 물리학으로 인해 포아송 분포로 다양한 측정을 설명 할 수 있다고 생각하는 물리학 자와 함께 일했습니다. 평균 = 분산이라는 가설을 기각하면 포아송 분포 가설에 대한 증거가 있습니다. @GordonSmyth의 의견에서 지적했듯이 주어진 측정 포아송 분포를 따라야 한다고 믿을만한 이유가 있거나 과도하게 분산 된 증거가있는 경우 중요한 요소가 누락되었다는 증거가 있습니다.

V아르 자형[와이]=α이자형[와이]α1


2.5 : 물론 음의 이항 법과 GLMM이 있는데, 그 한계가없는 임의의 효과가 있습니다.
Björn

@ 비요른 (Björn) : 이것이 반 논쟁의 이유입니다. 준 유사 법에만 적용됩니다. 지금까지 내가 아는 한, 대한 가능성을 기반으로 방법이 없습니다 아래 이가 준 가능성 모델을 분석 할 수 있지만, 분산.
Cliff AB

1
또한 2.5 : 내 이해는 원하는 관계를 만족시키는 지수 분산 계열 이 없다는 것입니다 . 즉, 준 점수는 실제 점수와 일치하지 않습니다. 즉이없는 것을 의미하지 않는다 바람직한 관계를 만족하는 계수 데이터의 분포는 가정; 그런 가족이 많이 있어야합니다.
guy

2
분산 수가 적은 데이터의 경우 @CliffAB에는 Conway-Maxwell-Poisson 모델이 있습니다 : en.m.wikipedia.org/wiki/… 몇 개의 R 패키지로 구현됩니다.
Dimitris Rizopoulos

모델이 예측에 사용될 경우, 더 간단한 모델을 선호하는 또 다른 이유는 다른 모든 모델이 같으면 더 간단한 모델이 더 나은 예측 품질을 갖기 때문입니다. 나는 일반적으로 PAC뿐만 아니라 AIC, BIC를 생각하고 있습니다.
meh

11

이것은 내 자신의 질문이지만, 내 자신의 2 센트를 답변으로 게시 하여이 질문에 대한 관점의 수를 더할 것입니다. 여기서 문제는 처음에 1 모수 분포를 데이터에 맞추는 것이 합리적인지 여부입니다. 단일 모수 분포 (예 : Poisson GLM 또는 시험 시행 변수가 고정 된 이항 GLM)를 사용하는 경우 분산은 자유 모수가 아니며 대신 평균의 일부 기능으로 제한됩니다. 이는 분산이 해당 분포의 구조를 따르는 지 확실하지 않은 상황에서 데이터에 1 모수 분포를 맞추는 것이 좋지 않다는 것을 의미합니다.


1 모수 분포를 데이터에 피팅하는 것은 거의 항상 나쁜 생각입니다. 데이터는 종종 제안 된 모델이 나타내는 것보다 더 지저분하며, 특정 1 모수 모델을 얻을 수 있다고 생각하는 이론적 이유가있는 경우에도 종종 데이터가 발생하는 경우가 있습니다 실제로는 하나의 매개 변수 분포와 다양한 매개 변수 값이 혼합되어 있습니다. 이것은 종종 분산에 대한 더 큰 자유를 허용하는 2- 모수 분포와 같은 더 넓은 모형과 동일합니다. 아래에 설명 된 것처럼 카운트 데이터의 경우 Poisson GLM에 적용됩니다.

문제에서 언급했듯이, 대부분의 통계 적용에서 최소한 처음 두 순간이 자유롭게 변할 수있는 분포 형태를 사용하는 것이 표준 관행입니다. 이를 통해 적합 모형은 모형에 의해 인위적으로 구속되지 않고 추정 된 평균 및 분산을 데이터가 지시 할 수 있습니다. 이 두 번째 매개 변수를 사용하면 모형에서 1 자유도 만 손실됩니다. 이는 데이터에서 분산을 추정 할 수 있다는 이점과 비교할 때 작은 손실입니다. 물론이 추론을 확장하고 왜곡을 피팅 할 수있는 세 번째 매개 변수, 첨도를 허용하는 네 번째 매개 변수 등을 추가 할 수 있습니다.


극소수의 예외를 제외하고 Poisson GLM은 나쁜 모델입니다. 필자의 경험에 따르면 Poisson 분포를 사용하여 데이터를 계산하는 것은 거의 항상 나쁜 생각입니다. 카운트 데이터의 경우 데이터의 분산이 푸 아송 분포에 비해 '과도하게 분산'되는 것이 매우 일반적입니다. 이론이 포아송 분포를 가리키는 상황에서도 종종 가장 좋은 모델은 분산이 자유 모수가되는 포아송 분포 의 혼합 입니다. 실제로 카운트 데이터의 경우 음 이항 분포는 속도 매개 변수에 대한 감마 분포 가있는 포아송 혼합물입니다.따라서 포아송 분포의 과정에 따라 계수가 도달한다고 생각하는 이론적 이유가 있더라도 종종 '과도 분산'이 있고 음 이항 분포가 훨씬 더 적합합니다.

데이터를 계산하기 위해 Poisson GLM을 피팅 한 다음 통계적 테스트를 수행하여 '과도 분산'을 확인하는 것은 시대를 초월한 것이며 결코 좋은 방법은 아닙니다. 다른 형태의 통계 분석에서는 두 모수 분포로 시작하지 않고 임의로 분산 제한을 선택한 다음 분포에서 모수를 제거하기 위해이 제한을 테스트합니다. 이러한 방식으로 작업을 수행함으로써 모델 선택에 사용 된 초기 가설 검정과 실제 모델 (포아송 또는 더 넓은 분포)로 구성된 어색한 하이브리드 절차를 실제로 만듭니다. 많은 상황에서 초기 모델 선택 테스트에서 하이브리드 모델을 작성하는 이러한 관행은 전체적인 모델이 나쁘다는 것을 보여주었습니다.

유사한 하이브리드 방법이 사용 된 유사한 상황은 평균 차이의 T- 검정에 있습니다. 예를 들어 통계 과정에서 먼저 Levene 검정 (또는 훨씬 더 까다로운 "거짓말 규칙")을 사용하여 두 모집단 간의 분산이 동일한 지 확인한 다음 데이터가이 테스트를 "통과"한 경우 권장했습니다. 등분 산을 가정하는 Student T- 검정을 사용하고 데이터가 검정에 "실패"한 경우 Welch의 T- 검정을 대신 사용합니다. 이것은 실제로 매우 나쁜 절차입니다 (예 : 여기여기 참조)). 후자의 검정을 사용하는 것이 훨씬 좋습니다. 예비 가설 검정을 함께 모은 다음이를 사용하여 모형을 선택하는 어색한 복합 검정을 작성하는 것보다는 분산에 대한 가정이 없습니다.

카운트 데이터의 경우 일반적으로 음 이항 또는 준-포아송 모델과 같은 2- 파라미터 모델을 피팅하면 좋은 초기 결과를 얻을 수 있습니다. (후자는 실제 분포가 아니지만 여전히 합리적인 2- 모수 모델을 제공합니다.) 더 일반화가 필요한 경우, 일반적으로 과도한 수의 제로가있는 제로 인플레이션을 추가합니다. 데이터에서. Poisson GLM으로 제한하는 것은 인공적이고 감각이없는 모델 선택이며,과 분산을 테스트해도 훨씬 나아지지는 않습니다.


자, 다음은 사소한 예외입니다. 위 의 유일한 예외는 두 가지 상황입니다.

(1) 하나의 모수 분포에 대한 가정이 충족되었다고 믿는 이론상의 이유 는 매우 강력 하며 분석의 일부는 데이터에 대해이 이론적 모델을 테스트하는 것입니다. 또는

(2) 다른 (이상한) 이유로 분석의 목적은 데이터의 분산에 대한 가설 검정을 수행하는 것이므로 실제로이 분산을이 가정 된 제한으로 제한 한 다음이 가설을 검정하려고합니다.

이러한 상황은 매우 드 rare니다. 그것들은 데이터 생성 메커니즘에 대한 사전 이론적 지식 이 강한 경우에만 발생하는 경향이 있으며, 분석의 목적은이 기본 이론을 테스트하는 것입니다. 이는 엄격하게 통제 된 조건 (예 : 물리학)에서 데이터가 생성되는 매우 제한된 범위의 응용 분야에서 발생할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.