로지스틱 회귀 분석에서 적합도 검정; 어떤 '적합'을 테스트하고 싶습니까?


12

나는 질문과 그 답을 언급하고 있습니다 : 로지스틱 회귀에서 개발 된 모델의 예측 능력을 비교하는 방법은 무엇입니까? @Clark Chong의 답변 및 @Frank Harrell의 답변 / 댓글. 그리고 Hosmer-Lemeshow 테스트에서 의 자유도χ2 및 질문에 대한 질문 .

나는 DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow 논문, "물류 회귀 모형에 대한 적합도 검정의 비교", Statistics in Medicine, Vol. 16, 965-980 (1997) .

내가 읽은 질문은 "(확률) 예측 능력"을 명시 적으로 요구하기 때문에 혼란스러워했다. 이것은 필자 의 논문에서 위의 적합도 테스트의 목표 와 동일하지 않다고 생각한다 .

우리 대부분이 알고 있듯이, 로지스틱 회귀는 설명 변수와 성공 확률 사이의 S 자형 링크를 가정합니다. S 자형의 기능적 형태는 다음과 같습니다.

P(y=1|xi)=11+e(β0+iβixi)

Hosmer-Lemeshow 검정의 단점이없는 것처럼, 우리는 (a) '(확률) 예측 능력 '과 (b) ' 적합성 '에 대한 검정을 구별해야한다고 생각합니다 .

전자의 목표는 확률이 잘 예측되는지 테스트하는 반면 적합도 검정은 위의 S 자 함수가 '올바른'함수인지 테스트합니다. 더 공식적으로 :

  1. '확률 예측 능력 테스트'에 대한 테스트 는 성공 확률이 모델에 의해 잘 예측되었음을 나타내는 가지며 ;H0
  2. 적합도 검정을 위해, 은 S- 형 기능성 형태가 올바른 (Hosmer et al. 참조). Hosmer et al. 링크 함수가 잘못되었거나 분모의 지수가 선형이 아닌 null에서 두 가지 유형의 편차를 탐지 할 수있는 힘을 찾는 시뮬레이션을 수행합니다.H0

분명히 위의 함수가 '올바른'기능적 형태를 갖는 경우 (따라서 테스트 에서 적합도 검정에 을 수락 할 수 있다고 결론을 내린다면 ) 예상 확률은 양호합니다 ...H0

첫 발언

그러나 귀무 가설을 기각하지 않으면 어떻게됩니까?에 설명 된대로 수용하는 것은 약한 결론입니다 . .H0

첫 번째 질문

내가 가진 가장 중요한 질문 / 발언은 적합도 이 기각되는 경우 테스트의 결론은 기능적 형태가 '올바른'것이 아니라는 것을 의미 하지만 확률은 다음과 같습니다. 잘 예측되지 않았습니까?H0

두번째 질문

또한 Hosmer 등의 결론을 지적하고 싶습니다. al; (나는 초록을 인용한다) :

''올바른 모형에 2 차 항이 있지만 선형 항만 포함 된 모형이 적합했을 때의 검정 성능을 조사한 결과 Pearson 카이 제곱, 비가 중 제곱합, Hosmer-Lemeshow decile 평활화 잔차 제곱합과 Stukel의 점수 테스트는 표본 크기가 100 일 때 선형성에서 중간 정도의 이탈을 감지하기 위해 검정력이 50 %를 초과하고 크기가 500 인 표본에 대해 동일한 대안에 대해 90 % 이상의 검정력을 갖습니다. 정확한 모형이 이분법과 연속 공변량 사이에 상호 작용이 있었지만 연속 공변량 모델 만 적합 할 때 모든 검정은 검정력이 없었습니다. 크기가 100 인 샘플의 경우 잘못 지정된 링크를 감지하는 능력이 떨어졌습니다. 점수 테스트는 최고의 성능을 보였지만 비대칭 링크 기능을 탐지하기 위해 50 %를 초과했습니다. 잘못 지정된 링크 함수를 감지하기위한 비가 중 제곱 테스트의 힘은 Stukel의 점수 테스트보다 약간 낮았습니다 ''

이 테스트에서 더 많은 검정력이 있거나 Hosmer-Lemeshow의 검정력이 낮다는 결론을 내릴 수 있습니까?

두번째 발언

Hosmer 등의 논문. 알. 위에서 언급했듯이 특정 이상을 탐지하기위한 검정력을 계산 (시뮬레이션)합니다 ( 이 지정된 경우에만 검정력을 계산할 수 있음 ). 이것은 내 생각에 이러한 결과가``모든 가능한 대안 '' 로 일반화 될 수 있음을 의미하지는 않습니다 .H1H1

답변:


5

"적합성 (Goodness of Fit)"은 명백한 모델의 부정확성, "적합성 부족"과 달리 어떤 의미로 사용되기도한다. 그리고 때로는 다른 의미에서 모델의 예측 성능, 즉 예측이 관측치와 얼마나 잘 일치 하는지를 보여줍니다. Hosmer–Lemeshow 테스트는 첫 번째 의미에서 적합도에 대한 것입니다. 비록 적합하지 않다는 증거는 예측 성능 (두 번째 의미에서 Nagelkerke의 또는 Brier 점수로 측정 된 GoF )이 향상 될 수 있음을 암시 하지만 특정 개선을 시도 할 때까지 (또는 일반적으로 교호 작용 항, 또는 로짓과의 곡선 적 관계를 허용하기 위해 연속 예측 변수를 나타내는 스플라인 또는 다항식 기반을 포함하거나 때로는 링크를 변경하여) 얼마나 또는 얼마나 많은지 더 현명하지 않습니다.R2

적합도 검정은 특정 대안에 대한 고출력보다는 다양한 대안에 대해 합리적인 권한을 갖도록 고안되었습니다. 따라서 다른 테스트의 힘을 비교하는 사람들은 잠재적 사용자에게 특히 관심이 있다고 생각되는 몇 가지 대안을 선택하는 실용적인 접근 방식을 취하는 경향이 있습니다 (예 : 자주 인용되는 Stephens (1974), "적합성에 대한 EDF 통계 참조) & 일부 비교 ", JASA, 69 , 347 ). 하나의 테스트는 다른 테스트에 비해 더 강력하기 때문에 가능한 모든 대안에 대해 다른 테스트보다 더 강력하다는 결론을 내릴 수 없습니다.


1
어떤 경우에는 테스트가 '균일하게 더 강력하다'는 것을 알 수 있는데, 이는 가능한 모든 대안 (cfr Karlin / Rubin theorem)에 대해 더 강력하다는 것을 의미합니다. 그러나 이것은 예외적 인 경우에만 해당되며 Hosmer-Lemeshow 테스트 설정에는 해당되지 않습니다.

4
일반적으로, "적합성"은 IMHO를 너무 강조합니다. 더 나은 대안은 모델을 미리 맞추는 것입니다. 이것은 회귀 스플라인을 사용하여 선형성 가정을 완화하고 의미있는 상호 작용을 포함하여 수행됩니다.
Frank Harrell

2
@fcoppens : 좋은 지적입니다! 고려중인 대안을 스칼라 매개 변수 값으로 엄격하게 제한하여 UMP 테스트 만받을 수 있습니다. 테스트가 허용되지 않는지 여부를 고려하더라도-모든 대안에서 더 큰 힘을 가진 다른 테스트가 하나 이상 있습니다-범용 GOF 테스트에는 대안을 너무 많이 제한해야합니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.