Poisson GLM에 오프셋을 사용해야합니까?


11

두 가지 수중 시각 센서스 방법을 사용할 때 어류 밀도와 어종 풍부도의 차이를 조사하는 연구를 수행하고 있습니다. 내 데이터는 원래 데이터로 계산되었지만 일반적으로 물고기 밀도로 변경되었지만 여전히 Poisson GLM을 사용하기로 결정했습니다.

model1 <- glm(g_den ~ method + site + depth, poisson)

3 개의 예측 변수는 입력 할 때 요인으로 주문한 방법, 사이트 및 깊이입니다.

내 응답 변수는 그룹화 종 풍부, 그룹화 밀도 및 다른 물고기 그룹과 동일합니다. 밀도가 정수가 아니며 수치 데이터입니다 (예 : 1.34849). 그러나 지금이 오류가 발생합니다.

In dpois(y, mu, log = TRUE) : non-integer x = 0.037500

나는 읽고 있었고 많은 사람들이 오프셋 사용을 제안합니다. 이것이 가장 권장되는 일입니까?


1
이것은 실제로 R을 사용하는 방법에 관한 것이 아닙니다. 이것은 R 질문으로 위장한 기본 통계 질문입니다. 여기 주제에 있어야합니다.
gung-Monica Monica 복원

답변:


11

여기 몇 가지 문제가 있습니다.

  1. 관측 카운트를 반응 변수로 사용해야합니다. 밀도 ( g_den)를 사용하지 않아야합니다 .
  2. 관측 된 개수가 다른 영역에서 나온 경우 해당 영역의 로그를 새 변수로 가져와야합니다.

    larea = log(area)
  3. 다음과 같은 두 가지 방법으로 관측치의 다른 영역을 제어 할 수 있습니다.

    • 사용하여 larea같은 오프셋. 이렇게하면 응답이 실제로 비율 이됩니다 (모형의 왼쪽에 나열된 항목이 개수 인 경우에도 해당 ).
    • 이용함으로써 larea공변량있다. 이것은 다른 영역을 제어하지만 응답이 속도와 동일하지는 않습니다. 이 방법 larea은 증가가 계수에 증가 또는 감소 효과가 있는지 (즉, 경사가 1보다 작거나 큰지) 평가할 수있는보다 유연한 접근 방식입니다 .

다음 CV 스레드에는 이러한 문제에 대한 자세한 정보가 있습니다.


6

물고기 수를 조사 된 물의 양 (또는 아마도 면적)으로 나눈 것 같습니다. 이 경우 오프셋이 실제로 적절하면 나눈 값의 로그를 사용해야합니다. 혹시

model1 <- glm(g_den ~ method + site + depth + offset(log(area)), poisson)

(이전의 잘못된 버전에서 편집하여 로그가 없음)

오류 메시지의 원인은 포아송 분포가 일반적으로 정수 값이지만 응답이 정수가 아니기 때문입니다. 오프셋이 있으면 변경됩니다. (응답 / 오프셋)은 정수 여야합니다 (물론 원래 카운트가 정수라고 가정합니다).


2
Poisson 모델이 로그 링크를 사용하므로 영역의 로그 변환을 답에 사용해야하지만 코드는 변환을 수행하지 않습니다. 나는 offset기본적으로 변환을 적용 한다고 생각하지 않지만 사용한지 오래되었습니다 offset.
iacobus

3
참고 offset() 하지 않습니다 기본적으로 변환을 적용; 계수를 1로 강제합니다 . 예를 들어 여기를 참조 하십시오 .
gung-Monica Monica 복원

1
의견 주셔서 감사합니다. 따라서 데이터를 밀도가 아닌 카운트로 다시 변경하고 영역을 별도의 변수로 포함해야합니까? 또한 다른 포럼에서 감마 또는 역 가우스 모델을 수행하고 데이터를 밀도로 유지하려면 0 값을 0.00001로 변경하라는 조언을 받았습니다. 적절하다고 생각하십니까?
Vivienne

4
@JDL log (area)가 오프셋으로 포함되면 응답이 아닌 정수 밀도를 유지하는 것은 옳지 않습니다. 로그 링크 함수 및 로그 (영역) 오프셋은 즉, 예상 물고기 수와 각 지역의 크기에 비례합니다. 이는 예상 밀도 는 log ( 지역). E(count)=exp(βTx)area=exp(βTx+log(area))E(count/area)=E(count)/area=exp(βTx)
Jarle Tufto

5
밀도를 응답으로 사용할 수 없습니다. 원래 카운트를 응답으로 사용해야합니다. 오프셋을 포함하면 카운트 응답이 올바른 방식으로 밀도와 자동으로 동일 해집니다.
gung-복직 모니카

5

포아송을 사용하여 모형을 만들려면 반응 변수에 정수 값이 있어야합니다. 그런 다음 두 가지 옵션이 있습니다

  • 영역 또는 다른 적절한 분모를 오프셋으로 사용하십시오. 일반적으로 먼저 기록해야합니다
  • 영역 등을 예측 변수로 포함합니다. 로그 카운트를 모델링하기 때문에 일반적으로 로그로 포함됩니다.

오프셋 접근법을 사용하면 면적을 두 배로 늘리면 카운트가 두 배가 될 것으로 예상됩니다. 예측 방법을 사용하면 면적을 곱하면 숫자를 곱하지만 반드시 같은 요인은 아니라는 것을 알 수 있습니다.

당신의 전화입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.