이 질문은 물류 모델이 충분한 지 결정하는 방법에 대한 실제 혼란에서 비롯됩니다. 종속 변수로 형성된 후 2 년 후에 개별 프로젝트 쌍의 상태를 사용하는 모델이 있습니다. 결과는 성공적이거나 (1) 그렇지 않습니다 (0). 쌍 형성시 측정 된 독립 변수가 있습니다. 내 목표는 내가 가정 한 변수가 쌍의 성공에 영향을 미치는지 여부를 테스트하여 다른 잠재적 영향을 제어하는 것입니다. 모형에서 관심 변수는 중요합니다.
의 glm()
함수를 사용하여 모델을 추정 했습니다 R
. 모델의 품질을 평가하기 위해, 나는 몇 가지 일을 한 것은 : glm()
당신에게 제공 residual deviance
의 AIC
와 BIC
기본적에게. 또한 모형의 오차율을 계산하고 구간 화 된 잔차를 플로팅했습니다.
- 완전한 모델은 내가 추정 한 (그리고 완전한 모델에 중첩 된) 다른 모델보다 잔류 편차, AIC 및 BIC가 작기 때문에이 모델이 다른 모델보다 "더 나은"것으로 생각하게됩니다.
- 모델의 오류율은 IMHO ( Gelman and Hill, 2007, pp.99에서와 같이 ) :
error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)
약 20 % 로 상당히 낮습니다 .
여태까지는 그런대로 잘됐다. 그러나 비닝 잔차를 (Gelman과 Hill의 조언에 따라) 플롯하면 많은 빈이 95 % CI를 벗어납니다.
그 음모로 인해 모델에 전혀 잘못된 것이 있다고 생각합니다. 그러면 모델을 버릴까요? 모델이 불완전하다는 것을 인정해야하지만이를 유지하고 관심 변수의 영향을 해석해야합니까? 비닝 잔차 플롯을 실제로 개선하지 않고 변수를 차례로 배제하고 일부 변환을 수행했습니다.
편집하다:
- 현재이 모델에는 12 개의 예측 변수와 5 개의 상호 작용 효과가 있습니다.
- 이 쌍들은 모두 짧은 기간 동안 (단, 엄밀히 말하면, 모두 동시에) 형성되고 많은 프로젝트 (13k)와 많은 개인 (19k)이 형성된다는 점에서 서로 "상대적으로"독립적입니다. ) 따라서 프로젝트의 상당 부분은 한 명의 개인 만 참여합니다 (약 20000 쌍).