어떤 GLM 제품군의 사용을 검증 할 수있는 진단은 무엇입니까?


19

이것은 매우 기초적인 것처럼 보이지만 항상이 시점에서 멈춰 있습니다.

내가 다루는 대부분의 데이터는 비정규 적이며 대부분의 분석은 GLM 구조를 기반으로합니다. 현재 분석을 위해 "보행 속도"(미터 / 분) 인 응답 변수가 있습니다. OLS를 사용할 수 없다는 것을 쉽게 알 수 있지만 어떤 가족 (감마, Weibull 등)이 적합한 지 결정하는 데 큰 불확실성이 있습니다!

Stata를 사용하고 잔차 및 이분산성, 잔차 대 적합치 등과 같은 진단을 살펴 봅니다.

카운트 데이터는 비율 (예 : 발생률)의 형태를 취할 수 있으며 감마 (과도하게 분산 된 이항 음성 이항 모델에 대한 아날로그)를 사용했지만, "흡연 총"을 사용하여 예라고 말하고 싶습니다. 가족. 이를 위해 표준화 된 잔차 대 적합치 값을 확인하는 유일한 방법은 무엇입니까? 데이터의 일부 계층 구조를 설명하기 위해 혼합 모델을 사용하고 싶지만 먼저 응답 변수를 가장 잘 나타내는 패밀리를 정렬해야합니다.

도움을 주셔서 감사합니다. 스타 타 언어는 특히 감사합니다!


4
" 예, 당신은 올바른 가족이 있습니다 " 라고 말하는 "흡연 총"을 원합니다 . 당신이 기대할 수있는 최선은 분명히 틀리지 않은 가족입니다. 배포 패밀리를 선택할 수있는 방법은 여러 가지가 있지만 일반적으로 우선 또는 이론적 고려 사항과 데이터 자체의 표시를 조합하는 경향이 있습니다.
Glen_b-복지국 모니카

답변:


14

몇 가지 팁이 있습니다.

(1) 잔차를 피팅과 비교하는 방법이 항상 명백한 것은 아니므로 특정 모델의 진단에 익숙해지는 것이 좋습니다. 예를 들어 로지스틱 회귀 모형에서 Hosmer-Lemeshow 통계량은 적합도를 평가하는 데 사용됩니다. 레버리지 값은 추정 된 확률이 매우 크거나 매우 작거나 거의 짝수 인 경우 작은 경향이 있습니다. & 곧.

(2) 때로는 한 모델 군이 다른 모델의 특별한 경우로 보일 수 있으므로 모수에 대한 가설 검정을 사용하여 선택하는 데 도움이 될 수 있습니다. 지수 대 Weibull.

(3) Akaike의 정보 기준은 다른 모델 중에서 선택하는 것을 포함하여 다른 모델 중에서 선택하는 데 유용합니다.

(4) 모델링하는 것에 대한 이론적 / 실험적 지식은 그럴듯한 모델의 범위를 좁 힙니다.

그러나 '올바른'가족을 찾는 자동적 인 방법은 없습니다. 실제 데이터는 원하는만큼 복잡한 분포에서 나올 수 있으며, 데이터 양에 따라 적합 할만한 모델의 복잡성이 증가합니다. 이것은 모델이 맞지 않지만 일부는 유용하다는 Box dictum의 일부입니다.

Re @gung의 의견 : 그것은 일반적으로 사용되는 Hosmer-Lemeshow 검정이 (a) 빈의 선택에 놀랍게 민감하고, (b) 대체적 가설의 관련 클래스에 대한 다른 검정보다 일반적으로 덜 강력하다고 나타납니다. 그것은 포인트 (1)에서 벗어나지 않습니다 : 최신 상태 인 것도 좋습니다.


감사! 당신의 제안은 간결하고 정확합니다. 응답 변수의 구조 (양성, 연속성, 치우침) 때문에 사용할 수있는 가족이 제한되어 있습니다. 지수 패밀리 중에서 감마가 실제로 유일한 옵션 인 것 같습니다. 한편, 나는 Stata Jounal 5 (2)에 나타난 바와 같이 NJ Cox에 의해 유용한 도구를 발견했습니다. 많은 배포판을 사용하여 가장 좋은 가족을 내 데이터와 일치시킬 수 있습니다.) 다른 제안도 감사합니다!
RLang

1
Hosmer-Lemeshow GoF 테스트는 사용 된 비닝에 의존하거나 신뢰할 수없는 것으로 나타났습니다.
gung-Monica Monica 복원

@ 궁, 그것은 사용 된 비닝에 분명히 달려 있습니다. 이상적이지는 않지만 원하는 결과를 얻기 위해 비닝을 다루지 않는 한 큰 문제인지 확실하지 않습니다. 어떻게 신뢰할 수없고 다른 어떤 테스트가 더 낫습니까?
Scortchi-Monica Monica 복원


1
"유효하지 않음"이 너무 강하다는 것이 맞습니다. 나는 단지 "신뢰할 수 없다"고 말했고 하렐은 "구식"을 사용한다.
복원

8

R 패키지 의 비 네트 (소개 매뉴얼) 를 읽는 것이 흥미로울 수 있습니다 fitdistrplus. Stata에서 일하는 것을 선호하지만 비 네트는 데이터에서 분포 패밀리를 유추하는 과정에 대한 통찰력을 얻을 수있을 정도로 충분히 설명이 필요하다고 생각합니다. Stata에서 자신의 코드를 통해 일부 아이디어를 구현할 수있을 것입니다. 특히 Cullen and Frey 그래프가 Stata에서 구현 될 수 있다면 도움이 될 것입니다.


이 문제를 다시 확인하고 R로 전환했으며 Zuur와 Ieno를 지침으로 사용하고 있습니다. 여전히 많은 문제가 있지만 일반적으로 varIdent를 사용하여 내 모델 진단에 '사소한 이질성'이있는 것처럼 보입니다. 적합하게 보이는 잔차를 플로팅하면 각 공변량에 대한 잔차가 내 모델 변수 (고도) 중 하나에 대해 펑키 한 결과를 제공합니다. fitdistrplus에 대한 의견을 보내 주셔서 감사합니다. 이제 R과 Rstudio를 사용하고 있습니다 (사랑합니다!).
RLang

1
링크가 끊어졌습니다. 이것이 당신이 말한 소개 매뉴얼입니까? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf 아니면 이것 입니까
cran.r-project.org/web/packages/fitdistrplus/vignettes/…

후자의 링크는 내가 언급 한 비 네트의 다른 버전 인 것 같습니다.
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.