로지스틱 회귀 모델에 적합하면서 카운트 데이터를 공변량으로 사용하고 싶습니다. 내 질문은 :
- 음수가 아닌 계수를 세는 독립 변수로 사용하여 로지스틱 (및 일반적으로 일반화 된 선형) 모델에 대한 가정을 위반합니까?
나는 문헌에서 많은 양의 데이터를 결과로 사용하지만 공변량으로는 사용하지 않는 것에 관한 많은 참고 문헌을 발견했다. "NE Breslow (1996) 일반화 선형 모형 : 가정 확인 및 결론 강화, 의회 Nazionale Societa Italiana di Biometria, 1995 년 6 월," http://biostat.georgiahealth.edu/~dryu) /course/stat9110spring12/land16_ref.pdf .
느슨하게 말하면, glm 가정은 다음과 같이 표현 될 수 있습니다.
- iid 잔차;
- 링크 함수는 종속 변수와 독립 변수 간의 관계를 올바르게 나타내야합니다.
- 특이 치의 부재
계수 공변량을 처리하기 위해 다른 유형의 모형을 사용하도록 제안 할 수있는 다른 가정 / 기술적 문제가 있는지 여부를 모두 알고 있습니까?
마지막으로, 내 데이터에는 상대적으로 적은 수의 샘플 (<100)이 포함되어 있으며 카운트 변수의 범위는 3-4 자릿수 내에서 달라질 수 있습니다 (예 : 일부 변수는 0-10 범위의 값을 갖는 반면 다른 변수는 값을 가질 수 있음) 0-10000).
간단한 R 예제 코드는 다음과 같습니다.
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################