이 큰 경우 중첩 이진 로지스틱 회귀 모델 비교


10

더 나은 내 질문을, 나는 16 변수 모델 (모두에서 출력의 일부를 제공 한 fit)과 17 변수 모델 ( fit2아래)을 (이러한 모델의 모든 예측 변수는이 모델 사이의 유일한 차이점은 그이고, 연속 fit하지 않습니다 변수 17 (var17) 포함) :

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Frank Harrell의 rms패키지를 사용하여 이러한 lrm모델을 작성했습니다. 보시다시피, 이러한 모델은 차별 지수순위 차별 에서 크게 달라지지는 않습니다 . 색인 ; 그러나을 사용 lrtest(fit,fit2)하여 다음과 같은 결과가 제공되었습니다.

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

따라서 우리는이 우도 비 검정의 귀무 가설을 기각 할 것입니다. 그러나 이러한 모델이 유사한 방식으로 수행되는 것처럼 보이기 때문에 샘플 크기 ( n = 102849)가 커서이 문제가 발생했다고 가정합니다 . 또한 n 이 클 때 중첩 이진 로지스틱 회귀 모델을 공식적으로 비교하는 더 좋은 방법을 찾고 싶습니다 .

이러한 유형의 중첩 모델을 비교할 때 올바른 방향으로 안내 할 수있는 피드백, R 스크립트 또는 설명서를 대단히 높이 평가합니다. 감사!


변수 17을 제거하는 목적은 무엇입니까?
Michael M

이것은 장난감의 예입니다. 그러나 일반적으로 8-12 개의 변수로 모델을 작성하라는 요청을 받았으며 모델에 기여하지 않는 변수를 제거하는 것이 가장 중요합니다. 변수 17은 모델 전체에 대해 (예측 성 측면에서) 거의 의미가없는 것처럼 보이지만, 우도 비율 테스트는 두 모델간에 유의 한 차이가 있음을 나타냅니다 ( 이러한 차이는 실제 n이 아닌 큰 n 때문일 수 있음) 두 모델). 따라서 저는이 두 모델을 비교할 수있는 방법을 찾고 싶습니다 (두 모델간에 차이를 나타내지 않는 방법 찾기)
Matt Reichenbach

(1) 당신이 찾고있는 것을 확실히 이해하지 못합니다. 그러나 의학에서 c- 통계와 같은 차별을 사용하는 문제는 잘 확립되어 있고, 중요한 변수를 추가하더라도 c- 정적은 변하지 않을 수 있으며, 재 분류 지수 ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) AIC / BIC는 비슷합니까? 다수의 가변 정보 획득 기준이 식별 기준보다 더 유용 할 수있다.
찰스

1
첫 번째 단락에 오타가 있다고 생각합니다. 이 적혀있다 fit217 가변 모델이지만, 그것은 또한 생략합니다 그 모델입니다 V17. 이것을 편집하고 싶을 수도 있습니다.
tomka

1
@tomka, 위의 예에서 수정 한 내용으로 변경 fit2했습니다 fit. 감사!
Matt Reichenbach

답변:


6

(1) 왜 제한적 / 비교적 모델보다 완전한 모델을 선호해야하는지에 대한 광범위한 문헌이 있습니다. 내 이해는 parsimonious 모델을 선호하는 몇 가지 이유입니다. 그러나 더 큰 모델은 많은 임상 응용에 적합하지 않을 수 있습니다.

(2) 내가 아는 한, 차별 / 차별 지수는 모델 / 변수 선택 매개 변수로 사용되지 않아야한다. 그것들은이 용도로 의도 된 것이 아니기 때문에 모델 제작에 사용해서는 안되는 이유에 대한 문헌이 많지 않을 수 있습니다.

(3) Parsimonious 모델에는 쉽게 알 수없는 제한이있을 수 있습니다. 그것들은 더 큰 모델보다 잘 교정되지 않을 수 있으며, 외부 / 내부 유효성이 감소 될 수 있습니다.

(4) 미래 통계를 예측하거나 개인을 위험 범주로 분류하는 모델을 평가하는 데 c 통계가 최적이 아닐 수 있습니다. 이 설정에서는 정확한 위험 평가에 교정이 중요합니다. 예를 들어, 승산 비가 3 인 바이오 마커는 통계에 거의 영향을 미치지 않지만, 증가 된 수준은 개별 환자에 대한 10 년 심혈관 위험을 8 %에서 24 %로 이동시킬 수 있습니다.

쿡 NR; 의학 문헌에서 ROC 곡선의 사용 및 오용. 순환. 115 2007 : 928-935.

(5) AUC / c- 통계 / 차별은 중요한 예측 변수에 둔감 한 것으로 알려져있다. 이것은 위에서 언급 한 Cook 참조 및 순 재 분류 인덱스 개발의 동기 부여에서 논의됩니다. 위의 Cook에서도 논의되었습니다.

(6) 표준 변수 선택 방법을 사용하는 경우 큰 데이터 세트는 원하는 것보다 더 큰 모델로 이어질 수 있습니다. 단계별 선택 절차에서 종종 p- 값 컷오프 0.05이 사용됩니다. 그러나이 값에 대해 본질적인 것은 없으므로이 값을 선택해야합니다. 더 작은 데이터 세트의 경우 더 큰 p- 값 (0.2)이 더 적합 할 수 있고, 더 큰 데이터 세트에서는 더 작은 p- 값이 적절할 수 있습니다 (이러한 이유로 GUSTO I 데이터 세트에 0.01이 사용됨).

(7) AIC는 종종 모델 선택에 사용되며 문헌에서 더 잘 뒷받침되지만 BIC는 더 큰 데이터 세트에서 유효한 대안이 될 수 있습니다. BIC 모델 선택의 경우 카이 제곱이 log (n)을 초과해야하므로 더 큰 데이터 세트에서 더 작은 모델이 생성됩니다. (맬 로우는 비슷한 특성을 가질 수 있습니다)

(8) 그러나 최대 10 또는 12 개의 변수를 원한다면 더 쉬운 해결책은 비슷 bestglm하거나 leaps패키지입니다. 고려할 최대 변수 수를 설정하면됩니다.

(9) 두 모델을 동일하게 보이고 세부 사항에 대해 너무 걱정하지 않는 테스트를 원한다면 두 모델의 AUC를 비교할 수 있습니다. 일부 패키지는 비교를 위해 p- 값을 제공하기도합니다. 바람직하지 않은 것 같습니다.

Ambler G (2002) 예후 모델 단순화 : 임상 데이터에 기초한 시뮬레이션 연구
Cook NR; 의학 문헌에서 ROC 곡선의 사용 및 오용. 순환. 115 2007 : 928-935.
게일 MH, 파이퍼 RM; 절대 위험 모델 평가 기준. 바이오 스탯. 6 2005 : 227-239.

(10) 일단 모델이 구축되면 c- 통계량 / 데시 메이션 지수가 모델을 비교하는 최선의 방법이 아닐 수 있으며 문서화 된 제한이있을 수 있습니다. 또한 교정, 재 분류 지수가 최소한으로 비교되어야합니다.

Steyerber (2010) 예측 모델의 성능 평가 : 일부 기존 및 신규 측정의 프레임 워크

(11) 위를 넘어 의사 결정 분석 수단을 사용하는 것이 좋습니다.

비커스 AJ, 엘킨 EB. 의사 결정 곡선 분석 : 예측 모델을 평가하는 새로운 방법입니다. 메드 데시스 메이킹. 2006; 26 : 565-74.
베이커 SG, 쿡 NR, 비커스 A, 크라머 BS. 상대 유틸리티 곡선을 사용하여 위험 예측 평가 JR Stat Soc A. 2009; 172 : 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. 마커 및 위험 예측 모델 평가 : NRI와 의사 결정 분석 측정 간의 관계 개요. 메드 데시스 메이킹. 2013; 33 : 490-501

--- 업데이트 --- 비커스 기사가 가장 흥미 롭습니다. 그러나 이것은 많은 편집에도 불구하고 여전히 널리 받아 들여지지 않았습니다. 따라서 실용적이지 않을 수 있습니다. Cook 및 Steyerberg 기사는 훨씬 실용적입니다.

아무도 단계별 선택을 좋아하지 않습니다. 나는 그것을 옹호하지 않을 것입니다. 나는 단계적 비판의 대부분이 EPV <50이고 전체 또는 사전 지정된 모델과 축소 된 모델 사이의 선택을 가정한다고 강조 할 수있다. EPV> 50이고 모델 축소에 대한 약속이있는 경우 비용-편익 분석이 다를 수 있습니다.

c- 통계량을 비교하는 데 대한 약한 생각은 그것들이 다르지 않을 수 있다는 것입니다. 나는이 테스트가 상당히 힘이 약하다는 것을 기억합니다. 그러나 이제는 참조를 찾을 수 없으므로 그 기준을 벗어날 수 있습니다.


(1) 나는 완전한 모델이 선호된다는 것을 알고 있지만 선택할 수있는 1k 가지 이상의 변수가 있으며 산업별 요구 사항으로 인해이 작은 모델을 만들어야합니다. (2) 말이됩니다! (3) 동의했다! (4) 진실 (5) 흥미
로움

(6) 동의 함; 그러나 단계적 절차는있는 그대로 매우 의문의 여지가 있으며 p 값 컷오프 가 낮을수록 표본 크기에 관계없이 이러한 유형의 모델이 더 편향됩니다. (7)“BIC 모델 선택의 경우 카이 제곱이 log (n)을 초과해야합니다.”이것은 매우 유용한 것으로 보입니다. 감사! (8) bestglmleaps패키지는 매우 많은 계산하고 내가 작업하는 것과 같은 데이터 세트로 실행하는 일을하지만, 잠재적 인 아이디어를 주셔서 감사합니다.
Matt Reichenbach

(9)이 p- 값 은 표본 크기만으로 모델이 거의 동일하더라도 유의할 것입니다. (10) 캘리브레이션 및 재 분류 지수를 더 연구해야합니다. 감사합니다! (11)이 기사를 읽는 데 관심이 있습니다. Vickers로 시작하는 것이 좋습니다. 감사!
Matt Reichenbach

5

한 가지 옵션은 두 모델 모두에 의사 R- 제곱 측도를 사용하는 것입니다. 의사 R- 제곱의 큰 차이는 V17을 생략하여 모형 적합도가 크게 감소 함을 나타냅니다.

다양한 종류의 유사 R- 제곱이 있습니다. 예를 들면 다음과 같습니다.

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

인기있는 측정법은 Nagelkerke R-square입니다. 0과 1 사이에서 다양하며주의해서 간단한 선형 회귀 모델에서 R 제곱처럼 해석 될 수 있습니다. 이는 전체 모형의 추정 된 가능성과 절편 만 모형의 변환 된 비율을 기반으로합니다.

fitfit2에 대해 각각 추정 하고 상대 크기를 비교하여 문제에 대한 표시를 얻을 수 있습니다. 실질적으로 더 높은 Nagelkerke R-square 는 V17을 생략함으로써 많은 예측력을 잃어 fit버릴 것을 제안합니다 fit2.

에서 값 Nagelkerke의 R 제곱 제공합니다. 따라서주는 것은 견적을 제공 해야합니다. 도 참조하십시오 .lrmstatsfit$stats?lrm


나는 Nagelkerke의 R-square에 익숙하다. 그러나 제 질문은 "상당히 더 높은 Nagelkerke R-Square fit"에 무엇입니까? 우리가 0.173과 0.174에의 Nagelkerke의 R 제곱 가지고 위의 예에서 0.001의 차이가 fit하고 fit2각각을. "실제로 더 높은 Nagelkerke R-Square"가 무엇인지에 대한 언급이 있습니까? 감사!
Matt Reichenbach

@ 매트 : Nagelkerke의 R² 또는 다른 의사 R² 측정을 해석하는 데 대한 일반화 된 지침이 없다고 생각합니다. 그러나 이것은 공변량을 절편 만 모형에 포함 시켜서 '우도 감소'의 변형 된 척도이므로 선형 회귀 분석에서 표준 R²로 표시된 '설명 분산'과 유사합니다. 그런 의미에서 나는 .173 / .174 차이를 매우 작게 해석 할 것이다. 더 큰 차이는 sth입니다. 십자형 브리지. 그러나이 결론의 견고성을 확인하기 위해 다른 의사 R² 측정 (예 : McFadden 또는 Cox / Snell)을 추정하는 것이 좋습니다.
tomka

나는 차이가 매우 작다는 데 동의하지만, "작은"차이가 무엇인지 설명하는 참고 문헌을 찾을 수 있으면 좋겠다. 나는 당신의 생각에 감사한다. 다시 감사합니다!
Matt Reichenbach

1
문제 없어요! 빨리 투표하지 않아서 죄송합니다! pseduo R-squared의 관점에서 "작은"차이가 무엇인지에 대한 답을 찾으면 다시 게시하겠습니다! 감사!
Matt Reichenbach

-1

방금 이것에 대해 읽었습니다. 이를 수행하는 올바른 방법은 R의 glm의 최종 모형 출력을 사용하고 "잔차 이탈 :"을 찾은 다음 두 모형 사이의 델타를 도출하고이 값을 예측 변수 항 수와 동일한 df를 사용하여 카이 제곱 검정에서 사용합니다. 그리고 그것은 당신의 p 가치입니다.

적용된 회귀 모델링 Iaian Pardoe 2 판 2012 pg 270

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.