로지스틱 회귀 분석의 거대한 계수-의미와 수행 할 작업


9

로지스틱 회귀 분석 중에 거대한 계수를 얻습니다 krajULKV.

> summary(m5)

Call:
glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + 
    rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + 
    rok:obdobi:kraj, family = "quasibinomial")

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.7796  -1.0958  -0.3101   1.0034   2.8370  

Coefficients:
                              Estimate     Std. Error t value Pr(>|t|)   
(Intercept)                 -486.72087      664.71911  -0.732  0.46424   
rok                            0.24232        0.33114   0.732  0.46452   
obdobinehn                  3400.43703     1354.14874   2.511  0.01223 * 
krajJHC                      786.22409      708.50291   1.110  0.26746   
krajJHM                      511.85538      823.03038   0.622  0.53417   
krajLBK                      -23.94180     2388.86316  -0.010  0.99201   
krajMSK                     1281.88767      955.09736   1.342  0.17992   
krajOLK                     -175.19425     1255.82946  -0.140  0.88909   
krajPAK                      349.76438     1071.03364   0.327  0.74408   
krajPLK                    -1335.73206     1534.09899  -0.871  0.38418   
krajSTC                      868.99157      692.30426   1.255  0.20976   
krajULKV                  245661.86828 17496742.31677   0.014  0.98880   
krajVYS                     3341.76686     1314.77140   2.542  0.01121 * 
krajZLK                     3950.75617     2922.25220   1.352  0.17676   
resid_usili2                  -1.44719        0.89315  -1.620  0.10555   
rok:obdobinehn                -1.69479        0.67462  -2.512  0.01219 * 
rok:krajJHC                   -0.39108        0.35295  -1.108  0.26817   
rok:krajJHM                   -0.25481        0.40997  -0.622  0.53443   
rok:krajLBK                    0.01621        1.19155   0.014  0.98915   
rok:krajMSK                   -0.63985        0.47592  -1.344  0.17917   
rok:krajOLK                    0.08714        0.62545   0.139  0.88923   
rok:krajPAK                   -0.17419        0.53344  -0.327  0.74410   
rok:krajPLK                    0.66539        0.76383   0.871  0.38394   
rok:krajSTC                   -0.43292        0.34490  -1.255  0.20976   
rok:krajULKV                -122.01076     8704.03367  -0.014  0.98882   
rok:krajVYS                   -1.66391        0.65468  -2.542  0.01122 * 
rok:krajZLK                   -1.96718        1.45474  -1.352  0.17667   
obdobinehn:krajJHC         -3623.86807     1385.86009  -2.615  0.00909 **
obdobinehn:krajJHM         -3220.08906     1458.83842  -2.207  0.02757 * 
obdobinehn:krajLBK         -1051.07131     3434.11845  -0.306  0.75963   
obdobinehn:krajMSK         -6415.65781     1978.30260  -3.243  0.00123 **
obdobinehn:krajOLK         -2427.66591     1777.51914  -1.366  0.17239   
obdobinehn:krajPAK         -3111.45312     1623.59145  -1.916  0.05566 . 
obdobinehn:krajPLK         -1800.26258     2065.74461  -0.871  0.38375   
obdobinehn:krajSTC         -4409.45624     1379.64196  -3.196  0.00145 **
obdobinehn:krajULKV      -187832.68360 16454272.74951  -0.011  0.99089   
obdobinehn:krajVYS         -5445.51446     1791.38012  -3.040  0.00244 **
obdobinehn:krajZLK         -6216.43343     3167.49836  -1.963  0.05003 . 
krajJHC:resid_usili2           1.60474        0.98554   1.628  0.10385   
krajJHM:resid_usili2           1.57822        1.04518   1.510  0.13143   
krajLBK:resid_usili2          11.53462       13.40012   0.861  0.38961   
krajMSK:resid_usili2          -1.33600        1.55241  -0.861  0.38971   
krajOLK:resid_usili2           0.07296        1.27034   0.057  0.95421   
krajPAK:resid_usili2           1.35880        1.23033   1.104  0.26974   
krajPLK:resid_usili2           1.90189        1.41163   1.347  0.17826   
krajSTC:resid_usili2           2.05237        0.95972   2.139  0.03277 * 
krajULKV:resid_usili2        599.79215    20568.86123   0.029  0.97674   
krajVYS:resid_usili2           3.03834        1.16464   2.609  0.00925 **
krajZLK:resid_usili2           1.18574        1.11024   1.068  0.28583   
rok:obdobinehn:krajJHC         1.80611        0.69042   2.616  0.00906 **
rok:obdobinehn:krajJHM         1.60475        0.72676   2.208  0.02751 * 
rok:obdobinehn:krajLBK         0.52268        1.71244   0.305  0.76027   
rok:obdobinehn:krajMSK         3.19712        0.98564   3.244  0.00123 **
rok:obdobinehn:krajOLK         1.21012        0.88541   1.367  0.17208   
rok:obdobinehn:krajPAK         1.55034        0.80886   1.917  0.05563 . 
rok:obdobinehn:krajPLK         0.89718        1.02893   0.872  0.38349   
rok:obdobinehn:krajSTC         2.19742        0.68732   3.197  0.00144 **
rok:obdobinehn:krajULKV       93.43130     8189.24994   0.011  0.99090   
rok:obdobinehn:krajVYS         2.71357        0.89236   3.041  0.00243 **
rok:obdobinehn:krajZLK         3.09624        1.57711   1.963  0.04996 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for quasibinomial family taken to be 1.258421)

    Null deviance: 1518.0  on 878  degrees of freedom
Residual deviance: 1228.6  on 819  degrees of freedom
  (465 observations deleted due to missingness)
AIC: NA

Number of Fisher Scoring iterations: 18

이것은 무엇을 의미 하는가?? 이 논의 에서 언급 된 @Scortchi와 같은 다중 공선 성을 의미합니까 ? 아니면 이것이 과적 합을 의미합니까? 문제를 감지하는 방법? 이제 어떻게해야합니까?

변수를 제거하려고했습니다. 이것은 조금 도움이되지만별로 도움이되지는 않습니다.

> m6 <- update(m5, ~.- kraj:resid_usili2)
> m7 <- update(m6, ~.- resid_usili2)
> summary(m7)

Call:
glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + rok:obdobi + 
    rok:kraj + obdobi:kraj + rok:obdobi:kraj, family = "quasibinomial")

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.9098  -1.1931  -0.2274   1.0529   3.1283  

Coefficients:
                           Estimate  Std. Error t value Pr(>|t|)
(Intercept)              -118.95199   476.34698  -0.250    0.803
rok                         0.05971     0.23718   0.252    0.801
obdobinehn                412.69412   646.95083   0.638    0.524
krajJHC                   447.69791   498.45358   0.898    0.369
krajJHM                   -62.92516   525.85737  -0.120    0.905
krajLBK                   677.73239  1595.20024   0.425    0.671
krajMSK                   278.24639   621.32312   0.448    0.654
krajOLK                  -705.97832   782.53474  -0.902    0.367
krajPAK                   387.96543   608.98961   0.637    0.524
krajPLK                  -653.68419   782.20737  -0.836    0.403
krajSTC                  -114.34822   489.06318  -0.234    0.815
krajULKV                -2117.64674  1797.75836  -1.178    0.239
krajVYS                   884.74411   681.05324   1.299    0.194
krajZLK                  -997.77613   925.93280  -1.078    0.281
rok:obdobinehn             -0.20602     0.32211  -0.640    0.523
rok:krajJHC                -0.22303     0.24819  -0.899    0.369
rok:krajJHM                 0.03092     0.26180   0.118    0.906
rok:krajLBK                -0.33909     0.79438  -0.427    0.670
rok:krajMSK                -0.13889     0.30935  -0.449    0.654
rok:krajOLK                 0.35102     0.38943   0.901    0.368
rok:krajPAK                -0.19392     0.30323  -0.640    0.523
rok:krajPLK                 0.32463     0.38937   0.834    0.405
rok:krajSTC                 0.05677     0.24351   0.233    0.816
rok:krajULKV                1.05287     0.89453   1.177    0.239
rok:krajVYS                -0.44149     0.33911  -1.302    0.193
rok:krajZLK                 0.49612     0.46081   1.077    0.282
obdobinehn:krajJHC       -776.31258   672.68911  -1.154    0.249
obdobinehn:krajJHM       -267.78650   700.38741  -0.382    0.702
obdobinehn:krajLBK      -1246.67321  1760.37329  -0.708    0.479
obdobinehn:krajMSK       -383.77613   858.81391  -0.447    0.655
obdobinehn:krajOLK        -96.72334   947.75189  -0.102    0.919
obdobinehn:krajPAK       -540.25140   827.13134  -0.653    0.514
obdobinehn:krajPLK       -517.49161  1124.63474  -0.460    0.645
obdobinehn:krajSTC       -683.81160   672.66674  -1.017    0.310
obdobinehn:krajULKV      2344.32314  2073.98366   1.130    0.259
obdobinehn:krajVYS       -795.62043   917.80551  -0.867    0.386
obdobinehn:krajZLK        618.33075  1093.37768   0.566    0.572
rok:obdobinehn:krajJHC      0.38725     0.33493   1.156    0.248
rok:obdobinehn:krajJHM      0.13374     0.34870   0.384    0.701
rok:obdobinehn:krajLBK      0.62237     0.87662   0.710    0.478
rok:obdobinehn:krajMSK      0.19114     0.42758   0.447    0.655
rok:obdobinehn:krajOLK      0.04842     0.47171   0.103    0.918
rok:obdobinehn:krajPAK      0.26922     0.41184   0.654    0.513
rok:obdobinehn:krajPLK      0.25790     0.55986   0.461    0.645
rok:obdobinehn:krajSTC      0.34078     0.33492   1.017    0.309
rok:obdobinehn:krajULKV    -1.16571     1.03236  -1.129    0.259
rok:obdobinehn:krajVYS      0.39675     0.45704   0.868    0.386
rok:obdobinehn:krajZLK     -0.30732     0.54422  -0.565    0.572

(Dispersion parameter for quasibinomial family taken to be 1.313286)

    Null deviance: 2396.8  on 1343  degrees of freedom
Residual deviance: 2110.3  on 1296  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

편집 : Scortchi가 제안한 대로 VIF사용 하려고 시도했으며 엄청난 가치를 얻었습니다. 이것은 무엇을 의미 하는가? 보다:

> require(HH)
> vif(cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + 
+         rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + 
+         rok:obdobi:kraj)
                    rok              obdobinehn                 krajJHC                 krajJHM 
              50.281603         45075363.969712         15194580.406796         11362184.620230 
                krajLBK                 krajMSK                 krajOLK                 krajPAK 
         7567915.376763          5228018.864051         17105623.986998         10944471.683601
[... cut out ...]

글쎄, krjXXX 변수의 상관 행렬을 살펴보고 서로 상관 관계가 높은지 확인 했습니까?
zbicyclist

@zbicyclist, 감사합니다. kraj12 수준 (HKK (숨겨져 숨겨 짐), JHC, JHM, LBK, MSK 등)의 범주 형 변수 중 하나이므로 krajXXX의 상관 행렬이 이해가되지 않는 것 같습니다. 맞습니까? 그러면 어떻게해야합니까?
Curious

빠른 요청 : 위의 Scortchi의 토론 링크에는 실제 링크가 없습니다. 추가해 주시겠습니까? 감사!
James Stanley

2
토마스, 나는 HKK 수준이 빈번한 수준이라고 가정합니다 (즉, 당신은 단지 1 또는 2 개의 관측치로 수준을 떨어 뜨리지 않았습니다). 때로는 실수가 가장 빈번하지 않습니다. @James Stanley가 다음에 수행 할 작업에 대한 최상의 제안을 가지고 있다고 생각합니다.
zbicyclist 2012

1
@zbicyclist의 요점은 실제로 결과가 드문 참조 카테고리를 선택하면 해당 요소에 대한 모든 매개 변수가 준 완전 분리에 의해 영향을받을 수 있다는 것입니다. 더 빈번한 결과는 이것이 모든 매개 변수에 대한 문제가되는 것을 방지합니다). [참고로, 당신이 이미 알고있을 한 - 필요한 경우는 기준 레벨을 변경할 수 있습니다 R에, 하나의 예를 사용하는 것 kraj <- relevel(kraj, ref = "JHC")대신 기준 레벨로 JHC을 사용하고자합니다.]
제임스 스탠리

답변:


14

방대한 계수와 그에 따른 방대한 표준 오차는 준 완전 또는 완전 분리로 인해 거의 확실하게 발생한다고 제안합니다. 즉, 일부 매개 변수 조합의 경우 모든 사람이 결과를 얻거나 아무도 결과를 얻지 못하므로 계수가 무한대 (또는 음의 무한대)로 향합니다.

이러한 현상은 많은 상호 작용 항을 지정할 때 발생하는 경향이 있는데, 일부 "빈"(셀에 결과가 없거나 모든 결과가 있음) 셀이 증가하는 요인의 조합 가능성이 있기 때문입니다.

자세한 내용과 제안 된 전략은 다음 페이지를 참조하십시오. http://www.ats.ucla.edu/stat/mult_pkg/faq/general/complete_separation_logit_models.htm

더 일반적으로, 데이터 세트 크기 (특히 관찰 된 결과 수)에 대해 모델로 "너무 많은"작업을 시도하고 있음을 의미합니다.

편집 : 몇 가지 실용적인 제안

(1) 빠르고 간단하게 시도 할 수 있습니다. 모형에서 교호 작용 항을 제거하여 이것이 도움이되는지 확인하십시오 (연구 질문 관점에서 이것이 의미가 다른지 완전히 다른 문제입니다). 또는 (2) R이 결과 변수 (예 : 열)에 의해 교호 작용에 설명 된 조합에 대한 bi-iiig 비상 대표 (예 : 행)가되도록합니다. 여기서 분리의 증거를 볼 수 있습니다.


고마워 제임스. 이것이 실제로 과적 합을 의미합니까? 이것은 모델에 상호 작용을 포함하지 않아야 함을 의미합니까?
Curious

이것이 기술적으로 "과적 합"이라고 생각하지는 않지만 모델을 과도하게 늘리는 경우입니다. 예를 들어 일반적으로 과적 합 (overfitting)의 의미에 대한 Wikipedia를 참조하십시오 (정의에 대한 전문가 인 것처럼 보이지는 않습니다). en.wikipedia.org/wiki/Overfitting-과 규격 모델은 추정 된 모수가 아닌 교차 검증에서 잘 수행하거나, 즉 지정한 모델이이 표본을 설명하지만 동일한 모집단의 다른 표본에서는 제대로 작동하지 않습니다.
James Stanley

James에게 감사합니다. 그러나 이것이 Overfitting이라는 용어로 정확히 상상 한 것입니다. 이것이 다중 공선 성 / 과적 합 문제에 대해 새로운 것을 말해줍니까?
Curious

2
나는 이것이 용어 / 관용어의 문제 일 뿐이라고 생각한다. 당신이 묘사하는 것은 여전히 ​​문제이며, 과잉 사양으로 인한 것이지만, 우리는 이것을 공식적인 의미에서 "과적 합"이라고 언급하지는 않는다. 더 명확 해지려면 차이점에 대해 조금 읽어 봐야합니다!
James Stanley

2
준 완전 분리를 넘어서는 기술적 용어가 있는지 확실하지 않습니다. "우리는 상호 작용을 테스트하지 않은 준 완전 분리 (두 가지 요소의 조합으로 데이터가 희박하기 때문에)를 피하기 위해"라고 말합니다. 분명히 이것은 거의 모든 전문 용어이지만 이것이 가장 좋은 설명 일 것이라고 생각합니까?
James Stanley
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.