나는 물류 모델을 연구하고 있으며 결과를 평가하는 데 어려움을 겪고 있습니다. 내 모델은 이항 로짓입니다. 내 설명 변수는 15 레벨의 범주 변수, 이분법 변수 및 2 개의 연속 변수입니다. 내 N은 8000보다 큽니다.
투자하려는 기업의 결정을 모형화하려고합니다. 종속 변수는 투자 (예 / 아니오)이며 15 단계 변수는 관리자가보고 한 투자에 다른 장애물입니다. 나머지 변수는 판매, 여신 및 사용 된 용량에 대한 통제입니다.
아래는 rms
R 의 패키지를 사용한 결과 입니다.
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
기본적으로 나는 회귀 분석을 a) 모델이 데이터에 얼마나 잘 적합시키는 지와 b) 모델이 결과를 얼마나 잘 예측하는지에 대해 평가하고자한다. 적합도 (a)를 평가하기 위해 고유 공변량의 수가 N에 가까우므로 카이 제곱을 기반으로 한 이탈도 검정이 적합하지 않다고 생각하므로 X2 분포를 가정 할 수 없습니다. 이 해석이 맞습니까?
epiR
패키지를 사용하여 공변량을 볼 수 있습니다 .
require(epiR)
logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
또한 Hosmer-Lemeshow GoF 테스트는 테스트를 실행하기 위해 데이터를 10으로 나눕니다. 이는 다소 임의적입니다.
대신 rms
패키지로 구현 된 le Cessie–van Houwelingen–Copas–Hosmer 테스트를 사용 합니다. 이 테스트가 정확히 어떻게 수행되는지 잘 모르겠습니다. 아직이 논문을 읽지 않았습니다. 어쨌든 결과는 다음과 같습니다.
Sum of squared errors Expected value|H0 SD Z P
1711.6449914 1712.2031888 0.5670868 -0.9843245 0.3249560
P가 크므로 내 모델이 적합하지 않다는 증거가 충분하지 않습니다. 큰! 하나....
모형 (b)의 예측 용량을 확인할 때 ROC 곡선을 그리고 AUC가임을 알 수 0.6320586
있습니다. 그다지 좋지 않습니다.
그래서 내 질문을 요약하면 다음과 같습니다.
모델을 확인하기 위해 실행 한 테스트가 적절합니까? 다른 어떤 테스트를 고려할 수 있습니까?
모델이 전혀 유용하지 않습니까, 아니면 상대적으로 열악한 ROC 분석 결과에 따라 모델을 닫으시겠습니까?
x1
하나의 범주 형 변수로 간주해야 하는가? 즉, 모든 경우에 투자에 1, 1 개의 '장애물'이 있어야합니까? 나는 어떤 경우에는 두 가지 이상의 장애물에 직면 할 수 있다고 생각할 것이고, 어떤 경우에는 아무것도 없습니다.