카운트 데이터를 독립 변수로 사용하면 GLM 가정을 위반합니까?


14

로지스틱 회귀 모델에 적합하면서 카운트 데이터를 공변량으로 사용하고 싶습니다. 내 질문은 :

  • 음수가 아닌 계수를 세는 독립 변수로 사용하여 로지스틱 (및 일반적으로 일반화 된 선형) 모델에 대한 가정을 위반합니까?

나는 문헌에서 많은 양의 데이터를 결과로 사용하지만 공변량으로는 사용하지 않는 것에 관한 많은 참고 문헌을 발견했다. "NE Breslow (1996) 일반화 선형 모형 : 가정 확인 및 결론 강화, 의회 Nazionale Societa Italiana di Biometria, 1995 년 6 월," http://biostat.georgiahealth.edu/~dryu) /course/stat9110spring12/land16_ref.pdf .

느슨하게 말하면, glm 가정은 다음과 같이 표현 될 수 있습니다.

  • iid 잔차;
  • 링크 함수는 종속 변수와 독립 변수 간의 관계를 올바르게 나타내야합니다.
  • 특이 치의 부재

계수 공변량을 처리하기 위해 다른 유형의 모형을 사용하도록 제안 할 수있는 다른 가정 / 기술적 문제가 있는지 여부를 모두 알고 있습니까?

마지막으로, 내 데이터에는 상대적으로 적은 수의 샘플 (<100)이 포함되어 있으며 카운트 변수의 범위는 3-4 자릿수 내에서 달라질 수 있습니다 (예 : 일부 변수는 0-10 범위의 값을 갖는 반면 다른 변수는 값을 가질 수 있음) 0-10000).

간단한 R 예제 코드는 다음과 같습니다.

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

사이트에 오신 것을 환영합니다! 한 가지 언급 : 게시물에 서명하려면 프로필 (특히 정보 상자)을 사용하십시오.

11
일반적으로 GLM 모델에서 예측 변수 ( "독립") 변수는 알려진 상수로 간주되며 이에 대한 분포 가정 은 없습니다 ! 따라서 카운트 데이터를 예측 변수로 사용하는 데 아무런 문제가 없습니다.
kjetil b halvorsen

1
kjetil 맞습니다. 질문에 대한 정답입니다. 그러나 여기에 기술 된 극단적 인 범위의 IV로 데이터의 영향을 평가하고 적합도를 확인하며 특히 비선형 관계의 가능성을 평가하는 것이 현명 할 것입니다. 이것은 관계가 실제로 희망으로 수행 할 것 입니다 비선형 및 같은 루트 또는 로그로의 IV의 재 발현 것으로하여 동시에 영향을 미치는 문제들을 완화를 선형화합니다. 이것은 아마도 @ user14583이 답변에 표시하려는 것입니다.
whuber

@kjetilbhalvorsen-나는 "분포 가정이 없다"는 것에 동의하지만, 그 단어들 중 어느 것도 맞지 않기 때문에 "알려진"또는 "일정한"이라고 말하는 것은 아니라고 생각합니다.
rolando2

4
그것들은 그것들이 무작위가 아니라는 의미에서 "불변"입니다 : 분포가 없습니다. 이들은 오류없이 측정되었다고 가정한다는 의미에서 "알려져"있으므로 측정 된 값은 실제로 데이터 생성 메커니즘에서 작동 한 값입니다. GLM 모델은 모든 임의성이 응답 메커니즘에 있다고 가정하며, 이는 종종 모호합니다!
kjetil b halvorsen

답변:


5

여기에는 약간의 뉘앙스가 있으며 혼란을 일으킬 수 있습니다.

로지스틱 회귀 분석의 가정에는 " iid 잔차 ..."가 포함되어 있다고 이해합니다 . 나는 이것이 옳지 않다고 주장한다. 우리는 일반적으로 일반 선형 모형 (즉, 회귀)에 대해 말하지만,이 경우 잔차가 서로 독립적이며, 동일한 분포 (일반적으로 정상)가 동일한 평균 (0) 및 분산 ( 즉, 일정 분산 : 분산의 동질성 / 균일 성). 그러나 Bernoulli 배포의 경우이항 분포의 경우분산은 평균의 함수입니다. 따라서 공변량이 반응과 완전히 관련이없는 한 분산은 일정 할 수 없습니다. 그것은 로지스틱 회귀를 무가치하게 만들기에 너무 제한적인 가정 일 것입니다. 인용 한 pdf의 초록에는 "관찰의 통계적 독립성"으로 시작하는 가정이 나열 i-but-not-id되어 있습니다.

다음으로 @kjetilbhalvorsen이 위의 주석 에서 메모 한대로 , (즉, 당신의 독립 변수)가 가정 공변량 값은 일반화 선형 모델에 고정합니다. 즉, 특정 배포 가정이 만들어지지 않습니다. 따라서 개수에 상관없이 0에서 10 사이, 1에서 10000 사이, 또는 -3.1415927에서 -2.718281828 사이의 범위는 중요하지 않습니다.

그러나 @whuber가 지적한 것처럼 공변량 차원 중 하나에 극도로 극소수의 데이터가있는 경우 이러한 점이 분석 결과에 큰 영향 수 있습니다 . 즉, 그 점 때문에 특정 결과를 얻을 수 있습니다. 이를 고려하는 한 가지 방법은 데이터를 포함하거나 포함하지 않고 모델을 피팅하여 일종의 감도 분석 을 수행하는 것입니다 . 이러한 관측 값을 삭제하거나 강력한 통계 분석 을 사용하거나 해당 공변량을 변환하여 해당 지점이 갖는 최대한의 레버리지를 최소화하는 것이 더 안전하거나 더 적합하다고 생각할 수 있습니다 . 이러한 고려 사항을 "가정"으로 특성화하지는 않지만 적절한 모델을 개발할 때 반드시 고려해야 할 사항입니다.


1

내가 확실히 확인해야 할 것은 독립 변수의 분포 특성입니다. 카운트 데이터를 사용하는 경우가 많으며 보통 오른쪽에서 오른쪽으로 치우칩니다. 이 경우 로그-선형 관계가 손실되므로 데이터를 변환해야 할 것입니다. 그러나 물류 (또는 다른 GLM) 모델을 사용하는 것이 좋습니다.


3
오른쪽으로 치우침이 어떻게 '로그 선형 관계'를 잃습니까?
Glen_b-복지 주 모니카

3
이 의견은 나에게 잘못된 것 같습니다. @Glen_b와 마찬가지로, 이것이 로그 선형 관계를 어떻게 잃을 지 알 수 없습니다. 어쨌든 관계를 직접 조사하는 것이 좋습니다 (예 : 플로팅을 통해).
Peter Flom-Monica Monica 복원

2
IV의 비선형 변환은 로그 선형 관계를 다른 것으로 @Peter로 변경합니다. 이 대답은 기본적으로 나에게 맞는 것 같습니다.
whuber

1
@ whuber 나는 한 변수의 비선형 변환이 변수와 다른 변수 사이의 관계를 바꿀 것이라는 데 동의합니다. 꽤 분명해 보입니다. 그러나 어떤 종류의 관계에서 어떤 종류의 관계로? 관계가 어떻게 변할 것이라고 가정하는 대신 관계를 직접 조사하지 않겠습니까? 또한 그 대답은 그 사람 로그 선형 관계를 잃고 싶다고 말하는 것 같습니다 .
Peter Flom-Monica Monica 복원

2
좋은 지적이야 @Peter. 그러나 어떤 사람들 관계를 바꾸고 싶어합니다. 반드시 잘못된 생각은 아닙니다. 직접 검사가 올바른 절차라는 데 동의합니다. 선형 관계를 만들기 위해 관련된 IV를 다시 표현하는 방법을 제안합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.