로지스틱 회귀 분석을위한 Hosmer-Lemeshow vs AIC


12

Hosmer-Lemeshow가 적합하지 않음을 나타내지 만 모든 모델 중에서 AIC가 가장 낮다면 .... 여전히 모델을 사용해야합니까?

변수를 삭제하면 Hosmer-Lemeshow 통계량이 중요하지 않습니다 (즉, 총 적합치가 없음을 의미 함). 그러나 AIC는 증가합니다.

편집 : 일반적으로 다른 모델의 AIC가 서로 가깝다면 (즉 ) 기본적으로 동일하다고 생각합니다. 그러나 AIC는 매우 다릅니다. 이것은 Hosmer-Lemeshow 테스트가 달리 표시하더라도 AIC가 가장 낮은 것이 내가 사용해야하는 것으로 나타납니다.<2

또한 HL 테스트는 큰 샘플에만 적용됩니까? 작은 샘플 크기 (제 샘플 크기는 ~ 300)에 대해서는 저전력입니다. 그러나 중요한 결과를 얻는다면 ... 이것은 저전력에서도 거부를 받고 있음을 의미합니다.

AICc와 AIC를 사용하면 차이가 있습니까? SAS에서 AICc를 어떻게 얻습니까? 다중성에 문제가있을 수 있음을 알고 있습니다. 그러나 선험적으로 나는 변수가 결과에 영향을 미친다는 가설을 세웠다.

다른하실 말씀 있나요?

Edit2 : 중요하지 않은 HL과 함께 하나의 변수가 적고 AIC가 더 높은 모델을 사용해야한다고 생각합니다. 그 이유는 두 변수가 서로 상관되어 있기 때문입니다. 따라서 하나를 제거하는 것이 합리적입니다.


모든 모델이 불량 일 수 있음을 고려하십시오.

@mbq : 어떻게 도움이 되나요?
Thomas

2
중요하지 않은 모델 그룹에서도 AIC가 가장 우수한 모델이 있습니다. 어쨌든, 답변을 사용하여 질문을 확장하지 마십시오.

답변:


12

Hosmer-Lemeshow 테스트는 예측 된 확률의 임의적 인 비닝이 필요하고 교정 부족을 감지하는 데 탁월한 성능을 갖지 않기 때문에 어느 정도 사용되지 않습니다. 또한 모델을 과도하게 과도하게 적용하여 불이익을받지 않습니다. Hosmer, DW와 같은 더 나은 방법을 사용할 수 있습니다. Hosmer, T .; le Cessie, S. & Lemeshow, S. 로지스틱 회귀 모형에 대한 적합도 검정 비교. 의학 통계 , 1997, 16 , 965-980. 그들의 새로운 측정은 R에서 구현됩니다rms꾸러미. 더 중요한 것은 이러한 종류의 평가는 전체 모델 보정 (예측과 관측 간의 일치) 만 다루고 예측 변수를 잘못 변환하는 등 적합 부족을 다루지 않습니다. 이 문제에 대해 AIC를 사용하여 하나가 테스트되는 다른 모델보다 더 유연한 두 모델을 비교하지 않는 한 AIC도 마찬가지입니다. 인덱스 (ROC 영역)로 보완 된 일반화 된 측정 값 이 더 적합한 예측 차별에 관심이 있다고 생각합니다 . cR2c


AIC가 가장 낮은 모델의 적합도를 평가하는 데 우도 비 검정을 사용하는 것이 더 좋을까요? 이 테스트는 피팅 부족이 없음을 보여줍니다.
토마스

2 개 이상의 모델의 AIC를 살펴보면 일부 선택 바이어스 / 과적 합이 발생합니다. AIC는 위에서 언급 한 상황을 제외하고는 적합도를 명시 적으로 평가하지 않습니다. 적합도를 평가하는 가장 좋은 방법은 연속적인 부드러운 비모수 보정 플롯을 사용하여 올바른 보정을 시연하고 모델을 더 잘 예측할 수있는보다 복잡한 구성 요소에 대한 증거를 거의 나타내지 않는 것입니다.
Frank Harrell

해당 도구에 액세스 할 수 없다고 가정합니다. 중요하지 않은 HL 테스트를 갖는 모델 A는 또한 HL 테스트가 중요한 모델 B보다 변수가 하나 더 적습니다. 이 두 모델 만 비교하고 있습니다. 모델 A는 AIC가 가장 낮고 모델 B는 AIC가 훨씬 높습니다.
토마스

모델 B의 AIC가 가장 낮고 모델 A의 AIC가 훨씬 높았습니다.
토마스

2
위의 내용을 모두 공부했는지 잘 모르겠습니다. 일반적으로 우리는 경쟁력있는 예측 차별이있는 모델을 선택한 다음, 과적 합 때문에 차별 지수가 좋지 않은지 검증 한 다음 모델의 교정을 검증합니다. 마지막 단계는 고해상도 부드러운 비모수 보정 곡선을 사용하는 것이 가장 좋습니다. 이 모든 것들이 R rms패키지에 구현되어 있습니다. 그리고 을 사용하여 변수를 선택 하는 또 다른 방법 인 많은 모델의 AIC를 비교하지 마십시오 . 2 개의 사전 지정된 모델 만 비교하는 것이 좋습니다. P
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.