감마 GLM 사용시기


88

감마 분포는 상당히 넓은 범위의 모양을 취할 수 있으며 두 매개 변수를 통한 평균과 분산 사이의 링크를 고려하면 음이 아닌 데이터의 이분산성을 로그 변환 된 OLS가 처리 할 수있는 방식으로 처리하는 데 적합합니다 WLS 또는 이종 불균형 일관성 VCV 추정기 없이는 할 수 없습니다.

나는 음이 아닌 일상적인 데이터 모델링에 더 많이 사용하지만, 그것을 사용하는 다른 사람을 모르고, 공식적인 교실 환경에서 그것을 배우지 않았으며, 읽은 문헌은 결코 그것을 사용하지 않습니다. "실제로 감마 GLM 사용"과 같은 Google이있을 때마다 포아송 이벤트 사이의 대기 시간에 사용하도록 조언합니다. 승인. 그러나 그것은 제한적이며 유일한 용도 일 수는 없습니다.

본질적으로 감마 GLM은 감마의 유연성을 고려할 때 음이 아닌 데이터를 모델링하는 비교적 가벼운 방법입니다. 물론 QQ 플롯과 모델과 같은 잔차 플롯을 확인해야합니다. 그러나 내가 놓친 심각한 단점이 있습니까? "OLS 만 실행"하는 사람들과의 커뮤니케이션을 넘어서?

답변:


57

감마에는 로그 노멀이 공유하는 속성이 있습니다. 즉, 스케일 매개 변수가 변하는 동안 모양 매개 변수가 일정하게 유지되면 (일반적으로 모델에 사용할 때와 같이) 분산은 평균 제곱 (일정한 변동 계수)에 비례합니다.

이것에 근사한 것은 재무 데이터 또는 다른 많은 종류의 데이터에서 상당히 자주 발생합니다.

결과적으로 지속적이고 긍정적이며 오른쪽으로 치우 치며 로그 스케일에서 분산이 거의 일정하지 않은 데이터에 적합하지만, 그 중에서도 잘 알려진 (그리고 종종 쉽게 구할 수있는) 많은 선택이 있습니다 속성.

또한, 감마 GLM과 로그 링크를 맞추는 것이 일반적입니다 (자연 링크를 사용하는 것이 상대적으로 더 드)니다). 일반 선형 모델을 데이터의 로그에 맞추는 것과 약간 다른 점 은 로그 스케일에서 감마가 다양한 각도로 기울어지고 정규 (로그 정규 로그)가 대칭이라는 것입니다. 이를 통해 다양한 상황에서 유용합니다 (감마).

필자는 필자의 머리 꼭대기에서 De Jong & Heller and Frees 와 수많은 논문 에서 (실제 데이터 예제와 함께) 논의 된 감마 GLM의 실제 사용을 보았습니다 . 다른 분야의 응용 프로그램도 보았습니다. 만약 내가 기억 아, 그리고, 베너 블스 및 리플리의 질량이 학교 결석합니다 (quine 데이터를 사용하며, 편집 : 그것은 실제로입니다 밝혀 질량에 통계 보완 , PDF 파일의 14 페이지가 로그 링크가 P11를 볼 수 있지만 DV에는 약간의 변화가 있습니다). 맥컬 하그와 넬더는 혈액 응고의 예를 들었습니다.

그런 다음 자동차 보험 사례와 반도체 제조 데이터 사례를 수행 한 Faraway의 책 이 있습니다.

두 옵션 중 하나를 선택하면 몇 가지 장점과 단점이 있습니다. 요즘에는 둘 다 맞추기가 쉽습니다. 일반적으로 가장 적합한 것을 선택하는 문제입니다.

유일한 옵션과는 거리가 멀다. 예를 들어, 역 가우스 GLM도 있는데, 감마 또는 로그 정규보다 기울기 / 무거 우며 (더 이분법적인) 것입니다.

단점은 예측 구간을 수행하기가 더 어렵다는 것입니다. 일부 진단 디스플레이는 해석하기가 어렵습니다. 선형 예측 변수의 스케일 (일반적으로 로그 스케일)에 대한 계산 기대치는 동등한 로그 정규 모델보다 어렵습니다. 가설 검정 및 구간은 일반적으로 점근 적입니다. 이들은 종종 비교적 사소한 문제입니다.

로그 링크 로그 정규 회귀 (로그를 기록하고 일반 선형 회귀 모델에 적합)에 비해 몇 가지 장점이 있습니다. 하나는 평균 예측이 쉽다는 것입니다.


3
"감마"또는 "감마"여야합니까? 우리는 그것이 사람의 이름이 아니라는 것을 알고 있습니다. 나는 소문자 "g"를 훨씬 더 자주 보았다. 분명히 분포는 18 세기로 거슬러 올라가는 함수의 이름을 따서 명명되었습니다.
Nick Cox

2
Γ

@NickCox 나는 당신이 제안한대로 그것을 바꾸었고, 나는 그것이있는 동안 "Inverse Gaussian"을 고쳤다.
Glen_b

1
@Gleb_b : 역 가우스 가족과 함께 로그 링크를 계속 사용하십니까?
Dimitriy V. Masterov

@ DimitriyV.Masterov 덜 사용되므로 일반화하기가 어렵습니다. 내가 본 것에서 역 가우스와 함께 로그 링크를 사용하는 것이 일반적이지만 역 링크와 같은 일부 상황에서는 다른 링크가 적합 할 수 있습니다.
Glen_b

28

그건 좋은 질문이야. 실제로 사람들이 일반화 선형 모델 (GLM)을 더 많이 사용하지 않는 이유도 좋은 질문입니다.

경고 참고 : 일부 사람들은 여기서 생각하지 않은 일반적인 선형 모델에 GLM을 사용합니다.

  • 어디를 보느냐에 따라 다릅니다. 예를 들어 감마 분포는 수십 년 동안 여러 환경 과학에서 널리 사용되어 왔으므로 예측 변수를 사용한 모델링도 자연스러운 확장입니다. 수 문학 및 지형학에는 많은 사례가 있습니다.

  • 가장 잘 작동 할 때마다 빈 대답을 넘어서 사용할 때 확실히 사용하기가 어렵습니다. 긍정적 인 데이터가 비뚤어지면 감마 및 로그 노멀 모델 (GLM 컨텍스트 로그 링크, 노멀 또는 가우시안 패밀리)을 시도하고 더 잘 작동하는 것을 선택하는 경우가 종종 있습니다.

  • 감마 모델링은 많은 코드를 직접 작성하지 않고 로그를 취하고 선형 회귀를 적용하는 것과 비교할 때 상당히 최근까지도 상당히 어려웠습니다. 지금도 모든 주요 통계 소프트웨어 환경에서 똑같이 쉽지는 않다고 생각합니다.

  • 장점과 단점에도 불구하고 사용 된 것과 사용되지 않은 것을 설명 할 때, 당신은 항상 당신이 식별하는 요소의 종류, 즉 무엇을 가르치고 있는지, 사람들이 읽은 문헌에 무엇이 있는지, 사람들이 이야기하는 것을 듣는 것에 정확하게 귀를 기울인다 고 생각합니다. 직장과 회의에서. 따라서 설명하기 위해서는 일종의 아마추어 과학 사회학이 필요합니다. 대부분의 사람들은 자신의 분야에서 똑 바르고 좁은 길을 따르는 것 같습니다. 느슨하게는 모델링 기술에 대한 모든 분야의 내부 문헌이 클수록 그 분야의 사람들은 덜 다른 것을 시도하는 것처럼 보입니다.


1
어느 것이 더 잘 작동하는지 어떻게 알 수 있습니까?
Dimitriy V. Masterov

7
나는 가능성, R- 제곱 (사람들의 말에도 불구하고), 매개 변수 추정치에 대한 신뢰 구간, 관찰 된 vs 적합치, 잔차 vs 적합치 등을 살펴 본다. 나의 경험은 과학이 잘 형성되지 않았다. 다른 방법으로는 할 수 있습니까?
Nick Cox

@NickCox 분석이 관측치 대 적합치, 잔차 대 적합치 및 정규 qq 플롯을 관찰 할 때 무엇을주의해야합니까? 모델마다 다를 수 있음을 이해합니다. 감마, 포아송 및 음 이항에 대한 예를 들어 주시겠습니까? 감사합니다
tatami

@tatami 그것은 완전히 새로운 질문이거나 그 이상이라고 생각합니다. 요청하면 물린 사람을 볼 수 있습니다. 감마 모델과 부정적인 이항 모델이 어떤 프로젝트에서도 라이벌이라고 생각한 적이 없지만 상상력이나 경험의 실패 일 수 있습니다.
Nick Cox

13

감마 회귀는 GLM에 있으므로 이탈 잔차, 레버리지, 쿡 거리 등과 같은 진단 목적으로 많은 유용한 수량을 얻을 수 있습니다. 로그 변환 된 데이터의 해당 수량만큼 좋지 않을 수도 있습니다.

감마 회귀가 로그 정규과 비교하여 피하는 한 가지는 변환 바이어스입니다. Jensen의 부등식은 로그 정규 회귀 분석의 예측 이 변환 된 예상 값이 아닌 변환 된 데이터를 모델링하기 때문에 체계적으로 바이어스됨을 나타냅니다 .

또한 감마 회귀 (또는 음이 아닌 데이터의 다른 모델)는 감마에있는 지수 분포와 같이 0에서 모드를 가질 수 있기 때문에 로그 정규보다 광범위한 데이터 배열에 대처할 수 있습니다. 대수는 불가능합니다.

Poisson 우도를 유사 우도로 사용하는 것이 더 안정적이라는 제안을 읽었습니다. 그들은 서로의 켤레입니다. 유사-포아송 (Quasi-Poisson)은 또한 정확한 0 값에 대처할 수 있다는 실질적인 이점을 가지는데, 이는 감마 및 특히 로그 정규 모두에 문제가됩니다.


11

제 생각에는 오류가 동일한 모양의 감마 분포 계열에 있고 관련 공식에 따라 스케일이 변한다고 가정합니다.

그러나 모델 진단은 어렵습니다. 단순한 QQ 플롯은 분포가 거의 같기 때문에 여기에 적합하지 않지만, 분산은 다른 분산 분포 그룹입니다.

순진하게, 잔차 그림은 스케일이 다르지만 보통 긴 꼬리를 가진 동일한 모양임을 알 수 있습니다.

내 경험상 감마 GLM은 긴 꼬리 분포 문제에 대해 시도 될 수 있으며 보험 및 환경 분야 등에서 널리 사용됩니다. 역 가우시안 등과 같은 문제로 다른 가족 분포를 사용한다고 주장합니다. 실제로 그러한 선택은 산업 경험에 대한 전문가의 판단에 달려있는 것으로 보입니다. 이것은 감마 GLM의 사용을 제한합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.