로지스틱 회귀 및 쿡 거리의 잔차

10

오차항의 일정 분산 및 잔차 정규성과 같은 로지스틱 회귀 오차에 관한 특정 가정이 있습니까?
또한 일반적으로 쿡 거리가 4 / n보다 큰 포인트가있는 경우 포인트를 제거합니까? 이를 제거하면 제거 된 점이있는 모형이 더 나은지 어떻게 알 수 있습니까?

— lord12
소스

12

나는 당신에게 완전한 답을 줄 수 있는지 모르겠지만, 도움이 될만한 생각을 줄 수 있습니다. 먼저 모든 통계 모델 / 테스트에는 가정이 있습니다. 그러나 로지스틱 회귀 는 잔차가 정규 분포를 따르거나 분산이 일정하다고 가정 하지 않습니다 . 오히려 데이터는 이항식 , 즉 Bernoulli 시행 횟수가 해당 정확한 세트의 관측치 수와 같이 분포되어 있다고 가정합니다. 공변량 값과 해당 공변량 값 집합과 관련된 확률로 이항의 분산은 입니다. 따라서, $\mathcal{B}(n_{x_i},p_{x_i})$ $np(1-p)$ $n$ 공변량의 다른 수준에서 다양하며, 분산도 마찬가지입니다. 또한 공변량 중 하나라도 반응 변수와 관련이있는 경우 확률이 변하므로 분산도 변합니다. 이것들은 로지스틱 회귀에 관한 중요한 사실입니다.

둘째, 모델 비교는 일반적으로 데이터의 다른 하위 집합이 아닌 다른 사양 (예 : 다른 공변량 세트 포함)의 모델간에 수행됩니다. 솔직히 말해서, 나는 그것이 어떻게 제대로 이루어질 지 잘 모르겠습니다. 선형 모델을 사용하면 2 볼 수 있었다 적합성이 제외 된 비정상적인 데이터를 얼마나 잘 볼 수의, 그러나 이것은 것이다 단지 설명, 그리고 당신은 알고 있어야 것 이 올라갈 수 있습니다. 로지스틱 회귀에서는 표준 사용할 수 없습니다. 다양한 '의사 $R^2$ $R^2$ $R^2$ $R^2$ 유사한 정보를 제공하기 위해 개발되었지만 결함이있는 것으로 간주되어 자주 사용되지 않습니다. 존재 하는 다른 의사 대한 개요는 여기를 참조 하십시오 . 그들에 대한 토론과 비판에 대해서는 여기를 참조 하십시오 . 또 다른 가능성은 포함되지 않은 베타를 포함하거나 포함하지 않은 베타를 잭나이프하여 제외하면 샘플링 분포를 안정화하는 방법을 확인할 수 있습니다. 다시 한 번, 이것은 설명적일뿐입니다 (즉, 어떤 모델 (또는 데이터의 하위 집합)을 선호 하는지를 테스트하기위한 테스트가 아님) 및 분산이 내려 가야합니다. 의사 모두에 해당되는 사항 $R^2$ $R^2$ s 및 jackknifed 분포는 극도로 나타나는 사실을 기준으로 제외 할 데이터를 선택했기 때문입니다.

— gung-복직 모니카
소스

8

1) 오차항의 일정 분산과 잔차의 정규성과 같은 로지스틱 회귀에 대한 오차에 대한 특정 가정이 있습니까?

로지스틱 회귀 모델에는 전통적인 의미에서 "오류"가 없습니다. 반 직관적이고 방법 론적으로 일관성이 없습니다. 모델 결과는 확률 또는 위험에 적합하지만 관찰 된 결과는 0/1 이벤트 지표입니다. 방법 론적으로, 당신은 매우 높거나 매우 낮은 적합 확률 (잔여 거리에 매우 적은 양을 기여하는)의 영역을 강조하지 않는 반면, 모델 적합 알고리즘은 그러한 영역에서 훨씬 더 중요합니다. 제곱 거리는 일반적으로 로지스틱 회귀 모델을 보정하는 잘못된 방법입니다.

적합한 적합도 검정은 Hosmer-Lemeshow 검정으로 적합치의 십 분위수에 따라 적합치 값을 사용하여 비닝 분할을 생성합니다. Alan Agresti의 Categorical Data Analysis 또는 Hosmer and Lemeshow의 Logistic Regression 책에서이 테스트에 대해 읽을 수 있습니다. 또 다른 프로세스는 평균 분산 관계가 적합 역 변인에 의해 잔차를 재가 중시키는 데 사용되는 Studentized Residuals를 사용하는 것 입니다. 로지스틱 회귀 분석의 경우

{아르 자형}_{에스 티 유 디} = \frac{와이 - μ}{\sqrt{μ (1 - μ)}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2) 또한 일반적으로 Cook의 거리가 4 / n보다 큰 포인트가있는 경우 제거합니까? 이를 제거하면 제거 된 점이있는 모형이 더 나은지 어떻게 알 수 있습니까?

감도 분석을 기준으로 포인트를 제거하지 않습니다. 100 명의 무작위 표본을 추출하고 그들의 수입과 1 명이 억만 장자 인 경우, 가장 안전한 가정은 10 억 장자가 인구의 1/100을 차지한다는 것입니다.

— AdamO
소스

왜 억만 장자가 인구의 1/100을 차지한다고 생각하십니까? 아마도 인구의 억만 장자 비율에 대한 외부 추정치를 얻을 수있을 것입니다!

— kjetil b halvorsen

6

본인은 10 억 장자가 인구의 100 분의 1을 차지한다고 가정 할 때 일반적으로 위에 언급 한 AdamO의 의견에 동의합니다. 그러나 10 억 장자의 존재가 데이터를 왜곡하여 다른 99 명에 대한 예측이 영향을받는 경우에는 10 억 장을 제거 할 것입니다. 오히려 다른 사람들보다 특이 치를 예측하는 것이 잘못 될 것입니다.

그러나 Cook의 D 값 (예 : 4 / df 이상)을 사용하여 데이터 포인트를 제거하면 두 모델 모두에 대해 ROC 곡선 아래 영역을 사용하여 개선 여부를 확인할 수 있습니다.

— 산 제이 사라 바난
소스

1

(+1) 응답과 소득의 로그와 자연 스플라인으로의 관계를 모델링하는 것은 아마도 사전에 소득을 변화시키는 것일 수 있으며, 억만 장자가 다른 사람들에 대한 예측에 미치는 영향을 지나치게 피하는 또 다른 방법입니다. 그를 제거하면 다른 억만 장자에 대해 잘못된 예측을하기보다는 기꺼이 예측하지 않는 것이 좋습니다.

— Scortchi-Monica Monica 복원

아이러니하게도, 이진 사건을 예측할 때 영향력있는 관찰을 배제하면 위험 예측을 더 잘 교정 할 수 있습니다. 그러나 영향력있는 관찰을 제외하면 위험 예측의 차별 이 줄어 듭니다 . 후자가 더 중요하다. 특정 사건 (0 또는 1, 지속적으로 평가 되지는 않음 ) 의 위험을 예측할 때 최상의 예측 유형은 사례 예측을 1에 가깝게하고 통제 예측을 0에 가깝게합니다. 이것을 할 때.

— AdamO