이것은 실제로 매우 복잡한 문제이며 강사의 어려운 질문입니다!
데이터를 구성하는 방식면에서 1070 x 10 사각형이 좋습니다. 예를 들어, R에서 :
> conflict.data <- data.frame(
+ confl = sample(0:1, 1070, replace=T),
+ country = factor(rep(1:107,10)),
+ period = factor(rep(1:10, rep(107,10))),
+ landdeg = sample(c("Type1", "Type2"), 1070, replace=T),
+ popincrease = sample(0:1, 1070, replace=T),
+ liveli =sample(0:1, 1070, replace=T),
+ popden = sample(c("Low", "Med", "High"), 1070, replace=T),
+ NDVI = rnorm(1070,100,10),
+ NDVIdecl1 = sample(0:1, 1070, replace=T),
+ NDVIdecl2 = sample(0:1, 1070, replace=T))
> head(conflict.data)
confl country period landdeg popincrease liveli popden NDVI NDVIdecl1 NDVIdecl2
1 1 1 1 Type1 1 0 Low 113.4744 0 1
2 1 2 1 Type2 1 1 High 103.2979 0 0
3 0 3 1 Type2 1 1 Med 109.1200 1 1
4 1 4 1 Type2 0 1 Low 112.1574 1 0
5 0 5 1 Type1 0 0 High 109.9875 0 1
6 1 6 1 Type1 1 0 Low 109.2785 0 0
> summary(conflict.data)
confl country period landdeg popincrease liveli popden NDVI NDVIdecl1 NDVIdecl2
Min. :0.0000 1 : 10 1 :107 Type1:535 Min. :0.0000 Min. :0.0000 High:361 Min. : 68.71 Min. :0.0000 Min. :0.0000
1st Qu.:0.0000 2 : 10 2 :107 Type2:535 1st Qu.:0.0000 1st Qu.:0.0000 Low :340 1st Qu.: 93.25 1st Qu.:0.0000 1st Qu.:0.0000
Median :1.0000 3 : 10 3 :107 Median :1.0000 Median :1.0000 Med :369 Median : 99.65 Median :1.0000 Median :0.0000
Mean :0.5009 4 : 10 4 :107 Mean :0.5028 Mean :0.5056 Mean : 99.84 Mean :0.5121 Mean :0.4888
3rd Qu.:1.0000 5 : 10 5 :107 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:106.99 3rd Qu.:1.0000 3rd Qu.:1.0000
Max. :1.0000 6 : 10 6 :107 Max. :1.0000 Max. :1.0000 Max. :130.13 Max. :1.0000 Max. :1.0000
(Other):1010 (Other):428
> dim(conflict.data)
[1] 1070 10
모델을 피팅하기 위해 @ gui11aume과 같은 glm () 함수는 기본 사항을 수행합니다.
mod <- glm(confl~., family="binomial", data=conflict.data)
anova(mod)
...하지만 이것은 "국가"(국가를 107 단위로 가정하고 있음)를 고정 효과로 취급하는 반면 무작위 효과가 더 적절하다는 문제가 있습니다. 또한 자기 상관을 허용하지 않는 기간을 간단한 요소로 취급합니다.
R 의 Bates 등의 lme4 패키지 와 같이 일반화 된 선형 혼합 효과 모델을 사용하여 첫 번째 문제를 해결할 수 있습니다 . 여기 에 몇 가지 측면에 대한 소개가 있습니다 . 같은 것
library(lme4)
mod2 <- lmer(confl ~ landdeg + popincrease + liveli + popden +
NDVI + NDVIdecl1 + NDVIdecl2 + (1|country) +(1|period), family=binomial,
data=conflict.data)
summary(mod2)
한 걸음 앞으로 나아갈 것입니다.
이제 마지막 남은 문제는 10 개의 기간에 걸친 자기 상관입니다. 기본적으로 각 국가의 10 개 데이터 포인트는 10 개의 무작위로 선택된 독립적이고 동일한 분산 포인트만큼 가치가 없습니다. 나는 비정규 응답으로 다단계 모델의 잔차에서 자동 상관에 대한 광범위하게 사용 가능한 소프트웨어 솔루션을 알지 못합니다. 확실히 그것은 lme4에서 구현되지 않았습니다. 다른 사람들은 저보다 더 많이 알고있을 것입니다.