사용할 glm 제품군을 결정하는 방법은 무엇입니까?


17

여러 가지 수집 기술 사이에서 비교하려고하는 물고기 밀도 데이터가 있으며 데이터에는 많은 제로가 있으며 히스토그램은 밀도로 정수 데이터가 아니라는 점을 제외하고 포아송 분포에 적합하지 않습니다. 저는 GLM을 처음 접했고 최근 몇 일 동안 온라인에서 어떤 배포판을 사용하는지 알아 냈지만이 결정을 내리는 데 도움이되는 리소스를 찾지 못했습니다. 데이터의 샘플 히스토그램은 다음과 같습니다.히스토그램 샘플

GLM에 사용할 적절한 가족을 결정하는 방법을 모릅니다. 누구든지 조언이 있거나 체크 아웃해야 할 리소스를 줄 수 있다면 환상적입니다.


1
"물고기 밀도"란 정확히 무엇입니까? 예를 들어 호수의 단위 부피당 많은 물고기입니까?
gung-복직 모니카

단위 면적당 물고기 수 (이 경우 평방 미터)입니다. 시각적 조사 도구를 사용 했으므로 관찰 된 물고기 수를 도구로 조사한 영역으로 나눈 값으로 계산됩니다. 우리는 매우 다른 양의 면적을 조사하기 때문에 도구 간 표준화를 위해 밀도를 사용해야했습니다. 그렇지 않으면 카운트 데이터를 사용하고 포아송 분포를 고수 할 수있었습니다.
C. Denney

7
내 조언-카운트 데이터로 돌아가서 로그 링크가있는 모델에서 오프셋으로 "영역"을 사용하십시오 ---하지만 포아송이 매우 잘 맞는다는 것을 알지 못합니다. 히스토그램은 GLM이 모델링 할 조건부 분포가 아닌 한계 분포 만 표시합니다 (어떤 경우에도 빈을 너무 많이 사용하여 많이 사용하지 않음). 포아송이 꼬리가 무겁거나 0에서 0으로
떨어지지 않으면

나는 하루 종일 포아송을 모델링하고 Glen_b의 의견은 정식 답변입니다.
Paul

2
부록-포아송 모델링은 이론적으로 관측 단위 (이 경우 개별 물고기를 계산한다고 생각합니까?)가 무작위로 천공 된 모래 알갱이와 같이 관측 영역에 독립적으로 분포 될 때 이론적으로 정당화됩니다. 이 가정 하에서 밀도에 약간의 변화가있을 수 있지만, 한 물고기의 위치는 다른 물고기의 위치와 관련이 없습니다. 그러나 물고기가 예를 들어 학교에 밀집되어 위치가 더 이상 독립적이지 않기 때문에이 가정은 실제로 위반 될 수 있음에주의하십시오.
Paul

답변:


8

GLM 패밀리는 평균-분산 관계뿐만 아니라 링크 기능으로 구성됩니다. 푸 아송 GLM의 경우 링크 함수는 로그이고 평균-분산 관계는 ID입니다. 대부분의 통계 소프트웨어가 제공하는 경고에도 불구하고 두 변수 사이의 관계가 로그 스케일에서 선형이고 분산이 평균에 따라 증가하는 연속 데이터의 관계를 모델링하는 것이 합리적입니다.

이것은 본질적으로 GLM에서 링크 및 분산 기능을 선택하는 근거입니다. 물론이 과정에는 몇 가지 가정이 있습니다. 유사 가능성 (참조 ?quasipoisson) 또는 강력한 표준 오류 (패키지 sandwich또는 참조 ) 를 사용하여보다 강력한 모델을 만들 수 있습니다 gee.

데이터의 많은 밀도가 0이라는 것을 올바르게 알고 있습니다. 포아송 확률 모델에서는 때때로 데이터에서 0을 샘플링하는 것이 적절하므로 이러한 관측치가 속도 추정치에 치우침을 초래하는 것은 아닙니다.

GLM 배후의 가정을 검사하려면 일반적으로 Pearson 잔차를 보는 ​​것이 도움이됩니다. 이 평균 분산 관계를 설명하고 이러한 0과 같은 특정 관측치가 추정 및 결과에 중대한 영향을 미치는지 통계 학자에게 보여줍니다.


22

일반화 선형 모형은 선형 예측 변수로 정의됩니다.

η=엑스β

링크 함수 통해 전달됩니다 .

(이자형(와이|엑스))=η

종속 변수 와 독립 변수 X = X 1 , X 2 , , X k 간의 관계를 모델링합니다 . 더 정확하게, 그것을 모델 조건부 기대Y 주어진 X ,와이엑스=엑스1,엑스2,,엑스케이와이엑스

이자형(와이|엑스)=μ=1(η)

모델을 확률 론적 용어로 정의 할 수 있습니다.

와이|엑스에프(μ,σ2)

에프에프와이와이엑스와이엑스

반면에, 예측 모델을 작성하는 데 관심이 있다면 몇 가지 다른 분포를 테스트하는 데 관심이있을 수 있습니다. 결국 그 중 하나가 아닌 다른 분포보다 더 정확한 결과를 제공한다는 사실을 알게됩니다. 이론적 고려 측면에서 가장 "적절한"(예를 들어 이론에서는 Poisson을 사용해야하지만 실제로 표준 선형 회귀는 데이터에 가장 적합합니다).


2

이것은 다소 광범위한 질문이며, 모델링을 수행하는 방법을 요구하고 있으며, 그에 관한 모든 책이 있습니다. 예를 들어 카운트 데이터를 다룰 때 다음을 고려하십시오.

분포를 선택하는 것 외에도 링크 기능을 선택해야합니다. 카운트 데이터를 사용하면 포아송 또는 음 이항 분포, 로그 링크 기능을 시도 할 수 있습니다. 로그 링크의 이유는 다음과 같습니다. 적합도 및 선형 회귀 또는 포아송을 선택할 모델 카운트. 카운트 데이터 회귀 분석에서 오프셋에 대한 설명은 포아송 회귀 분석에서 오프셋을 사용할시기를 참조하십시오 .

EDIT 

이 답변은 원래 다른 질문에 게시되었으며이 질문과 병합되었습니다. 대답은 일반적이지만, 더 이상 질문에없는 데이터 세트 및 문제에 대한 세부 사항을 언급했습니다. 원래 질문은 다음 링크에서 찾을 수 있습니다. GLM의 가족-올바른 질문을 선택하는 방법?


@kjetil, 우리는 질문을 병합 해제 할 수 없습니다. 개발자만이 그렇게 할 수 있습니다 (그리고 그들은 정말로 좋아하지 않습니다). 그래도 원래 Q에 액세스 할 수 있습니다. 1 가능성은 콘텐츠를 새로운 Q (저자가 작성한 것)에 복사 하고이 A를 새 스레드에 복사 한 다음이 스레드를이 복제본으로 닫을 수 있다는 것입니다. 그것이 미친 아이디어인지 아니면 문제가 될만한 가치가 있는지 말하기는 어렵지만, 내가 할 수있는 일입니다. 선호 사항이 있습니까?
gung-복직 모니카

@ gung : 당신은 그렇게 할 수도 있고, 그 질문의 정보를 여기의 대답으로 복사 할 수 있습니다. 아마도 그게 최고일까요? (나는 그것이 편집 기록에서 보인다 편집 할 수 있습니다)
할보 르센 kjetil B

1
@kjetilbhalvorsen 우선, 스레드가 거의 동일하게 보였고 둘 다 좋은 답변을 포함했기 때문에 스레드를 병합하는 것이 엉망이었습니다. 내 첫 인상은 스레드를 병합해도 아무런 해가 없다는 것입니다. 아마도 두 번째 단락 에 "예를 들어, 카운트 데이터를 다룰 때 ..." 를 추가 할 수 있을까요? 당신의 대답은 일반적인 "가족을 선택하는 방법?" 질문, 아마 일반 스레드로 남겨 둘 가치가 있습니까?
Tim

1
@Tim 나는 당신이 말하는대로 편집 할 것입니다!
kjetil b halvorsen

편집을 해보자. Q를 다시 게시하려면 다시 Ping하십시오. 이제 깃발을 닫습니다.
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.