포아송 회귀 분석에서 강력한 표준 오류를 언제 사용해야합니까?


10

카운트 데이터에 포아송 회귀 모델 을 사용하고 있으며 매개 변수 추정에 강력한 표준 오류를 사용 하지 않는 이유가 있는지 궁금합니다 . 특히 견고하지 않은 내 추정치 중 일부는 중요하지 않지만 (예 : p = 0.13) 견고성이있는 경우에는 중요합니다 (p <0.01).

SAS에서는 proc genmod(예 :) 의 반복 된 문장을 사용하여 사용할 수 있습니다 repeated subject=patid;. 내가 사용하고 http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm을 강력한 표준 오차를 사용하여 지원 카메론과 Trivedi (2009)의 논문을 인용 예로서.

답변:


6

일반적으로 오류가이 분산 적이라는 의심이 든다면 강력한 표준 오류를 사용해야합니다. 강력한 SE를 사용하지 않을 때 추정치가 중요하지 않다는 사실은 강력한 SE의 필요성을 시사하지만 증명하지는 않습니다! 이 SE는 이분산성이 일반화 된 선형 모델에서 발생할 수있는 편향에 "견고합니다".

그러나이 상황은 포아송 회귀 분석 위에 계층화한다는 점에서 약간 다릅니다.

푸아 송은 데이터가이를 지원하는지 여부에 관계없이 분산을 평균과 동일하게 만드는 특성을 잘 알고 있습니다. 강력한 표준 오류를 고려하기 전에이 문제가 발생하지 않는 음의 이항 회귀를 시도합니다. 표준 오류의 결과 변경이 중요한지 여부를 확인하는 데 도움이되는 테스트 (주석 참조)가 있습니다.

보고있는 변경 사항이 강력한 SE로 이동하면 CI가 좁아 지는지 확실하지 않지만 분산이 부족한 것 같습니다. 적절한 모델을 살펴보고 (음수 이항식이라고 생각하지만 빠른 인터넷 검색을 통해 저 분산을위한 유사 푸 아송을 제안합니까?) 해당 설정에서 얻는 결과를 확인하십시오.


좋은 대답입니다! 일반적으로 OLS에서 이분산성으로 인해 매개 변수가 편향되지 않습니다 (단지 비효율적 임). 일반 선형 모델의 경우에는 사실이 아니지만 참조를 위해 Dave Giles 의이 게시물 을 참조하십시오. 나는 Vuong 테스트가 이것을 권장한다고 생각하지 않습니다 (중첩되지 않은 0 팽창 모델의 비교를 위해 제안했습니다). 푸아 송은 네그 안에 중첩되어 있습니다. 이항 모형이므로 분산 모수에 우도 비 검정을 사용할 수 있습니다.
Andy W

답변 주셔서 감사합니다. 음 이항 회귀 분석을 시도했지만 경고 : "상대적 헤센 수렴 기준 0.0046138565가 0.0001의 한계보다 큽니다. 수렴에 의문의 여지가 있습니다." 내 응답 변수는 0에서 4 사이의 값을 가진 수입니다. 수렴에 도움이되는 종속 또는 독립 변수의 변환이 있습니까? 아니면이 경우에 무엇을합니까?
kara

또한 비 견고성 SE가 더 작다는 것과 관련이 있습니다. 내 분석에서 나는 그것이 견고하고 강력한 SE가 더 작다는 것을 알았습니다. 이것이 강력한 결과를보고할지 여부에 대해주의를 기울이려는 이유입니다. 중요한 pvalue 때문에이 방법을 선택하고 싶지 않습니다! 다시 감사합니다!
kara

@AndyW 나는 내 노트를 확인했고 Vuong은 ZI vs Poisson에 실제로 사용되었습니다. 게시물이 업데이트되었습니다. 카라 나는 반전을 놓쳤다. 당신은 NBD는 :-) 잠재적 또한 솔루션이 경우에 따라 분산 된 데이터를 가질 수있다
아리 B. 프리드먼

@kara 댓글에 비 수렴 문제를 진단하기가 어렵습니다. 당신이 제공 할 수있는 한 많은 정보를 가지고 새로운 질문을하려고합니다.
Ari B. Friedman

1

실제로는 교환 가능한 정의 인 "GEE"를 참조하여 모델 기반 및 강력한 표준 오류를 사용하여 분석을 차별화 할 것입니다. Scortchi의 환상적인 설명 외에도 :

GEE는 소량의 시료, 즉 10-50 명의 피험자에서 "편향"될 수 있습니다 : (Lipsitz, Laird 및 Harrington, 1990; Emrich and Piedmonte, 1992; Sharples and Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, and Williams, 1994; Gunsolley, Getchell, Chinchilli, 1995; Sherman and le Cessie, 1997.) GEE가 편향되어 있다고 말할 때, 표준 오류 추정값은 셀 수가 적거나 0으로 인해 보수적이거나 보수적이지 않을 수 있습니다. 이 동작을 나타내는 적합치와 회귀 모형의 전체 추세와 얼마나 일치하는지에 따라

일반적으로 파라 메트릭 모델이 올바르게 지정된 경우에도 모델 기반 CI에서 올바른 표준 오류 추정값을 얻을 수 있지만 GEE 사용의 핵심은 매우 큰 "if"를 수용하는 것입니다. GEE를 사용하면 통계학자는 데이터에 대한 작업 확률 모델 만 지정할 수 있으며 매개 변수 (엄격하게 매개 변수화 된 프레임 워크에서 해석되는 대신)는 기본적이고 알려지지 않은 데이터 생성에 상관없이 재현 가능한 값을 생성 할 수있는 "시브 (sieve)"유형으로 간주됩니다. 기구. 이것이 반 파라 메트릭 분석의 핵심이며 GEE가 그 예입니다.

또한 GEE는 독립적 인 상관 매트릭스를 지정하더라도 데이터에서 측정되지 않은 공변량 소스를 처리합니다. 이는 모델 기반 공분산 행렬이 아닌 경험적 사용 때문입니다. 예를 들어, 포아송 모델링에서는 다양한 스트림에서 샘플링 된 연어의 생식 률에 관심이있을 수 있습니다. 암컷 어류에서 수확 된 난자는 기저 포아송 분포를 가질 수 있지만, 특정 흐름에서 공유 된 친화 성과 가용 한 자원으로 구성된 유전 적 변이는 다른 개울보다 그 개울 내의 물고기를 더 유사하게 만들 수 있습니다. GEE는 샘플링 비율이 모집단 비율과 일치하거나 다른 방식으로 계층화되어있는 한 정확한 모집단 표준 오류 추정치를 제공합니다.


1

등분 산이 없는지 테스트합니다. 간단한 보조 OLS 회귀입니다. Cameron and Trivedi의 670 페이지에 대한 설명이 있습니다 . 과대 산포가 크면 표준 오차가 크게 줄어들 기 때문에 과대 산포가 발생할 때 견고하지 않은 VCE에 영향을 미치는 모든 결과에 매우주의해야합니다. 과소 산포를 사용하면 반대의 경우도 마찬가지입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.