로지스틱 회귀 분석?


74

선형 회귀 분석의 경우 진단 그림 (잔류 그림, 정규 QQ 그림 등)을 확인하여 선형 회귀 가정이 위반되었는지 확인할 수 있습니다.

로지스틱 회귀 분석의 경우 로지스틱 회귀 모델 적합을 진단하는 방법을 설명하는 리소스를 찾는 데 문제가 있습니다. GLM에 대한 몇 가지 교육 과정 노트를 살펴보면 잔차를 확인하는 것이 로지스틱 회귀 적합에 대한 진단을 수행하는 데 도움이되지 않는다는 것입니다.

인터넷을 살펴보면 모델 편차 확인 및 카이 제곱 테스트 수행과 같은 다양한 "진단"절차가있는 것 같습니다. 그러나 다른 출처에서는 이것이 부적절하고 Hosmer-Lemeshow 적합도를 수행해야한다고 말합니다. 테스트. 그런 다음이 테스트가 실제 그룹화 및 컷오프 값에 크게 의존 할 수 있음을 나타내는 다른 출처를 찾습니다 (신뢰할 수 없음).

그렇다면 로지스틱 회귀 분석이 어떻게 적합해야합니까?


1
stats.stackexchange.com/questions/29271/… 또는 stats.stackexchange.com/questions/44643/… 의 중복 (또는 특수한 경우) 가능 하지만 실제로 해결되지 않는 답변이 없습니다.
피터 엘리스

1
얼마 전까지 만해도 웹에서 무료로 전체를 이용할 수 있었던 Scott Menard의 논문을 읽는 것이 좋습니다.
rolando2

2
로지스틱 회귀 분석에 대한 적합도 측정에 대한이 질문이 도움이 될 수 있습니다 (물론 적합도는 물론 모델 진단의 일부 일지라도) : stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r- 제곱 - 측정 - 인 - 더 - 한 - 투 - 보고서 - 콕스 / 3570
스테판 Kolassa

답변:


39

로지스틱 회귀 모델의 적합성을 평가하기 위해 내가 접한 몇 가지 최신 기술은 정치 과학 저널에서 나왔습니다.

  • Greenhill, Brian, Michael D. Ward & Audrey Sacks. 분리도 : 이진 모델의 적합도를 평가하기위한 새로운 시각적 방법. 미국 정치학 저널 55 (4) : 991-1002 .
  • Esarey, Justin & Andrew Pierce. 이진 종속 변수 모델에서 적합 품질 평가 및 잘못된 사양 테스트. 정치 분석 20 (4) : 480-500 . 여기에서 PDF 사전 인쇄

이 두 가지 기술은 Hosmer & Lemeshow와 같은 적합도 검정을 대체하고 잠재적 인 잘못된 지정 (특히 방정식에 포함 된 변수의 비선형 성)을 식별하기 위해 사용되었습니다. 이것들은 전형적인 R- 제곱 적합 척도가 자주 비판 되기 때문에 특히 유용합니다 .

위의 두 논문은 예측 확률과 플롯의 관측 결과를 활용 하여 이러한 모델 의 잔차가 무엇인지 명확하지 않은 문제를 피합니다 . 잔차의 예는 로그 우도 또는 피어슨 잔차에 기여할 수 있습니다 (더 많은 것이 있다고 생각합니다). 종종 관심이있는 다른 측정 (잔여는 아니지만)은 DFBeta (모델에서 관측치가 제외 될 때 계수 추정치가 변경되는 양)입니다. 다른 잠재적 인 진단 절차와 함께 로지스틱 회귀 진단에 대한이 UCLA 페이지 는 Stata의 예를 참조하십시오 .

나는 유용하지는 않지만 범주 형 및 제한된 종속 변수에 대한 J. Scott Long의 회귀 모델 이 이러한 다양한 진단 측정에 대해 간단한 방식으로 충분히 자세하게 설명되어 있다고 생각 합니다.


2
로지스틱 회귀 분석에 대한 다른 책의 버킷로드가 있습니다 (적어도 부분적으로는 전체가 아닌 경우). Agresti의 다양한 범주 형 데이터 분석 교과서, Scott Menard, Hosmer 및 Lemeshow 및 Frank Harrell의 RMS 서적은 모두 다양한 기고자들이이 포럼에서 추천 한 것입니다.
Andy W

답변 주셔서 감사합니다. 내 질문에 대한 간단한 대답이 없다고 생각합니다. 나는 당신의 추천을 살펴볼 것입니다. 건배.
ialm December

23

그 질문은 충분히 동기 부여가되지 않았다. 다음과 같은 모델 진단을 실행해야 할 이유가 있습니다.

  • 더 나은 모델을 만들 수있는 가능성
  • 어떤 직접 테스트를 사용해야하는지 모름 (예 : 비선형 성 또는 상호 작용 테스트)
  • 모형을 변경하면 통계적 추론 (표준 오차, 신뢰 구간, )을 쉽게 왜곡 할 수 있음을 이해하지 못함P

대수 회귀 사양과 직교 인 것을 확인하는 것 (예 : 일반 선형 모델의 잔차 분포 검사)을 제외하고 모델 진단은 제 생각에 해결되는만큼 많은 문제를 일으킬 수 있습니다. 이것은 분산 가정이 없기 때문에 이진 로지스틱 모델에서 특히 그렇습니다.

따라서 일반적으로 모형을 지정하는 데 시간을 소비하는 것이 좋습니다. 특히 사전 증거가 제시하지 않는 강력한 것으로 생각되는 변수의 선형성을 가정하지 않는 것이 좋습니다. 예를 들어 예측 변수의 수가 적거나 모든 예측 변수가 비선형이고 (올바르게) 상호 작용을 가정하지 않는 경우와 같이 적합 해야하는 모형을 미리 지정할 수 있습니다 .

모델 진단을 사용하여 모델을 변경할 수 있다고 생각하는 사람은 부트 스트랩 루프 내에서 해당 프로세스를 실행하여 유도 된 모델 불확실성을 정확하게 추정해야합니다.


4
모델 진단은 모델링의 목적에서 비롯되어야한다는 데 동의합니다. 그러나 시작 단락에서 데이터에 맞는 모델을 확인해서는 안된다는 인상을 받았습니다. 나는 이것이 당신 이 생각한 것이 아니라고 확신합니다 . 또한, 진 로지스틱 모델은 가장 확실 않습니다 분배 가정을 가지고! (응답에 대해 두 개의 값만 존재한다는 것이 가장 분명합니다)
확률

3
Y에 대해 2 개의 특정 가능한 값만 있다고 가정하는 것 외에 이진 로지스틱 모델에는 거리가 없습니다. 가정. 필자는 개인적으로 로지스틱 회귀 분석과 함께 진단 플롯을 자주 사용하지 않고 샘플 크기가 우리에게 고급 스러움을 줄 수있는 방식으로 데이터에 적합 할 정도로 유연한 모델을 지정합니다. OLS에서 내가 사용하는 주요 진단 플롯은 잔차 정규성에 대한 qq 플롯입니다.
Frank Harrell

일반화 된 선형 모형 관점에서 로지스틱 모형은 이항 분포 (베르누이 분포)에서 발생합니다. 그러나 그때조차도 잔차를 해석해야합니다.
New_to_this

랜덤 변수가 두 값만 취할 수있는 분포 (즉, Bernoulli 분포)에 대한 이야기는 관측치가 독립적이지 않은 한 분포 가정이 잘못 될 수있는 방법이 없기 때문에 도움이되지 않습니다.
Frank Harrell

1
@ FrankHarrell 나는 당신이 여기서 말하는 것을 알고 있다는 것을 알고 있지만, 선형 예측 변수 (또는 심지어는 GAM 프레임 워크)는 로지스틱 회귀에 문제를 일으킬 수 있습니다. 많은 사람들이 이것이 당신이 말하는 것처럼 데이터에 독립적이지 않다는 것을 이해하지 못할 수도 있습니다. 학생들이 선형 회귀를 처음 접했을 때, 선형 예측 변수의 잘못된 사양과 오류 분포의 잘못된 사양을 구분하지 않고 잔차를 검사하는 방법을 배웁니다.
Jacob Socolar

5

이 스레드는 상당히 오래되었지만 최근에 DHARMa R 패키지 를 사용하여 GL (M) M의 잔차를 표준화 된 공간으로 변환 할 수 있다는 점을 추가하는 것이 유용하다고 생각했습니다 . 이 작업이 완료되면 분포 편차, 예측 변수의 잔존 종속성, 이분산성 또는 자기 상관과 같은 잔차 문제를 시각적으로 평가 / 테스트 할 수 있습니다. 실습 예제 와 CV에 대한 다른 질문은 여기여기 에서 패키지 비 네트 를 참조 하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.