로지스틱 회귀 분석 (Cox & Snell 또는 Nagelkerke)에 대해 어떤 의사


55

나는이 SPSS로지스틱 회귀 모델의 출력을. 출력은 모델에 맞게 두 가지 대책을보고 Cox & Snell하고 Nagelkerke.

그래서 이들의 엄지 손가락의 규칙, 같은 당신이 모델에 맞는으로보고 할 조치?R²

또는 일반적으로 저널에보고되는 지수 중 어느 것이 적합한 지수입니까?


일부 배경 : 회귀는 일부 환경 변수 (예 : 가파름, 초목 덮개 등)에서 조류 (캐퍼 칼리)의 존재 유무를 예측하려고합니다. 불행히도, 새는 자주 나타나지 않았으며 (35 번의 468 번의 미스로) 회귀는 다소 열악합니다. Cox & Snell은 .09, Nagelkerke, .23입니다.

주제는 환경 과학 또는 생태학입니다.


3
우수한 UCLA 통계 도움말 사이트에는 다양한 의사 R 2 와 이들이 서로 어떻게 관련되어 있는지 설명 하는 훌륭한 페이지 가 있습니다. R2
gung-복직 모니카

로지스틱 회귀 모델의 정확도를 최대화하는 정확한 비모수 적 알고리즘에 대해 설명하는 두 개의 링크가 있습니다. 이 방법을 데이터와 함께 사용하면 표본에 적용될 때 로지스틱 회귀 모델의 분류 성능이 향상됩니다. 예 1 : onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… 예 2 : epm.sagepub.com/content/54/1/73.abstract
user31256

답변:


74

일반적으로 는 전혀보고하지 않습니다 . Hosmer와 Lemeshow는 교과서 인 Applied Logistic Regression (2nd Ed.)에서 다음과 같은 이유를 설명합니다.R2

일반적으로, [ 측정 값]은 적합 모델에서 [기본 모델]까지의 예측 된 값, 데이터 없음 또는 절편 만 모델의 예측 된 값의 다양한 비교를 기반으로하므로 결과의 우수성을 평가하지 않습니다. 적당한. 실제 적합도는 적합 모델에서 관측 된 값과 예측 된 값의 비교를 기반으로 한 것입니다.R2

[At p. 164.]

R2R2

그들은이 토론을 글로 마무리합니다.

R2R2

[At p. 167.]

R2R2R2R2, 그렇지 않은 것보다 잘못 인도 될 가능성이 높습니다.


1
(+1) 나는 처음에 내 답변을 확장하려고 생각했지만 (당신의 직후에 왔음) 분명히 당신의 대답은 자급 자족합니다.
chl

감사합니다. 현재 진행중인 프로젝트에 도움이되며 완전히 이해됩니다.
Brandon Bertelsen

1
@ whuber : 나는 또한 올바른 classif로 끌리는 경향이 있습니다. 요율, 그러나 나는 교과서와 웹 사이트에서 분석가들이 그것을 신뢰하지 말고 pseudo-rsq가 한계에도 불구하고 공정한 척도라고 강조하면서 많은 참고 문헌을 보았습니다. 나는 종종 내 자신의 분석에서 어느 정도 제시된 것으로 보인다 : 주어진 예측 변수 psudo-rsq의 추가로 올바른 분류 속도가 실패하는 동안 올라갈 수 있고 (다른 메트릭은 추가의 이점을 나타낼 수 있음), 후자를 믿어서는 안됩니다. 이것에 대해 생각해 보셨습니까?
rolando2

4
R2R2

1
+1. 또한 답의 미묘한 부분을 확장하기 위해 분류 오류율을 언급 하는데, 이는 복수형이며 정확성 과 혼동해서는 안됩니다 . 혼동 행렬에서 도출 될 수있는 여러 종류의 계산 ( 정확도 , 오 탐지율 , 정밀도 등)이 있으며 우리가 관심을 갖는 것은 응용에 따라 다릅니다. 또한 교차 검증 과는 다르지만 때때로 혼동 되는 out-of-sample을 구별 합니다.
Wayne

27

R2R2RLR2=1exp(LR/n)

χ2, 2009)는 관찰 된 결과와 예측 된 확률 사이의 일치 성을 평가하기위한 동일한 접근 방식을 지적합니다.

χ2

또한 시각적으로 또는 이른바 Harrell 's E 통계량과 함께 관찰 된 결과와 예측 된 확률 사이의 절대적인 차이에 의존 할 것을 제안합니다.

자세한 내용은 Harrell 's Regression Modeling Strategies (pp. 203-205, 230-244, 247-249)에서 확인할 수 있습니다. 보다 최근의 토론은 다음을 참조하십시오.

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ 및 Kattan, MW (2010). 예측 모델의 성능 평가, 전통 및 신규 측정을위한 프레임 워크 . 역학 , 21 (1) , 128-138.


"적합성"과 연관성 또는 예측 능력의 차이점을 자세히 설명 할 수 있습니까?
Andy W

@ 앤디 그것을 지적 해 주셔서 감사합니다. 그 후 첫 문장이 제대로 들리지 않는다는 것을 알게되었습니다. 나는 내 대답을 업데이트 할 것이고, pls는 이것이 당신과 함께 괜찮다면 알려주십시오.
chl

업데이트 해 주셔서 감사하며 차이점을 명확하게 설명합니다.
Andy W

21

R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

b(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

pβϕ=11di21di21모델에 중복되거나 가짜 효과가있을 가능성이 높습니다 (과적 합). (이것은 모델의 구체화를 의미 할 수도 있습니다).

R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

확실히 이상하게 보입니다.

χ2


+1 Srikant의 답변 에 대한 의견에서 암시 된 문제에 대한 멋진 설명 .
whuber

이항 GLM이 반복적으로 가중 된 최소 제곱을 사용하여 적합하다고 가정 할 때 왜 적합도의 품질을 측정하기 위해 GLM이 적합했던 마지막 IRLS 반복의 가중 최소 제곱 적합의 R2를보고하지 않을 수 있습니까? stats.stackexchange.com/questions/412580/… 에서와 같이 ?
Tom Wenseleers

16

나는 Tue Tjur의 짧은 논문 "물류 회귀 모델의 결정 계수-새로운 제안 : 차별 계수"(2009, American Statistician ) 가 상당히 밝게 표현하는 물류 모델의 결정 계수에 대한 다양한 제안에 대해 발견했습니다. 그는 찬반 양론을 강조하는 좋은 일을하며 물론 새로운 정의를 제공합니다. 매우 좋습니다 (나는 자신을 좋아하지는 않지만).


1
그 논문을 지적 해 주셔서 감사합니다. 어쨌든 나는 그것을 놓쳤다 (그리고 그것은 큰 로지스틱 회귀 프로젝트의 중간에있을 때 나타났다!).
whuber

3
D=π^¯1π^¯01001R2D

8

나는 또한 그들 중 누구도 말하지 않을 것이므로 whuber의 대답을 상향 조정했습니다.

R ^ 2를 비판 할뿐만 아니라 Hosmer & Lemeshow는 때때로 유용한 로지스틱 회귀 분석에 대한 대체 적합도를 제안했습니다. 이것은 예측 된 확률 (또는 동등하게 선형 예측 인자)을 순서대로 정렬하여 각 그룹에서 관찰 된 긍정적 반응 수와 예상 반응 수를 비교하여 데이터를 동일한 크기의 10 개 그룹 (또는 가능한 한 가까운 그룹)으로 나누는 것을 기반으로합니다. 카이 제곱 테스트를 수행합니다. 이 'Hosmer-Lemeshow 적합도 테스트'는 대부분의 통계 소프트웨어 패키지에서 구현됩니다.


3
χ2

고맙습니다. j.mp 링크가 나를 BiblioInserm 로그인 프롬프트로 안내했지만 유용한 참고 자료입니다. 여기에 도이 기반 링크는 다음과 같습니다 dx.doi.org/10.1002/...
의 OneStop

잘못된 링크가 유감입니다 ... Frank Harrell의 Design패키지에는 대체 H & L 1 df 테스트 기능이 있습니다.
chl

3

모델이 완벽하게 적합 할 때이 모델에 적합하면 1을 달성하므로 Nagelkerke를 선호합니다. Cox & Shell은 완벽한 모델 ​​적합을 위해 1을 얻지 못하므로 0.09의 값을 해석하는 것이 조금 더 어렵습니다. 다양한 유형의 피팅에 대한 설명은 Pseudo RSquared에 대한 자세한 내용은이 URL을 참조하십시오 .


8
"완벽한 적합도"는 실제 로지스틱 회귀 분석에서 얻을 수있는 것과 거리가 멀기 때문에이를 참조 또는 표준으로 사용하는 것은 불공평합니다.
whuber

1
@whuber True이지만 표준을 사용하여 두 개의 경쟁 모델의 상대적인 성능을 비교할 수 있습니다. 당신의 대답과 그 의미 낮은 R ^ 2의 당신의 점은 좋은 점하지만 당신이 경우 ^ 2 다음 Nagelkerke 바람직하다 R의 일부 양식을 사용하는 (예를 들어, 검토는 등을 요구한다).

1
R2

@Srikant, @chl :이 스레드를 냉소적으로 읽는 것은 모든 소프트웨어 보고서 중에서 가장 큰 R ^ 2를 선택하는 것이 좋습니다 ;-).
whuber

2
@chl 리뷰어 / 클라이언트에게 푸시 백을 제공하는 것은 물론 필요하지만 때로는 실용적이어야합니다. 독자가 적절한 모델 성능이 부족하여 낮은 R ^ 2를 잘못 해석하지 않으면 @whuber가 제기 한 문제가 어느 정도 완화됩니다.

3

pseudo-r-squareds 사용에 대한 주장에도 불구하고, 일부 사람들은 여러 가지 이유로 적어도 특정 시간에 계속 사용하기를 원할 것입니다. 내 독서에서 내재화 한 것은 (현재 인용을 제공 할 수 없어서 미안합니다)

  • C & S와 Nag 모두 .5 미만이면 C & S가 더 나은 게이지가됩니다.
    둘 다 0.5 이상이면 Nag. 의지; 그리고
    그들이 0.5을 걸쳐 경우, 펀트.

또한, 적용되는 로지스틱 회귀 분석 (Sage)에서 Scott Menard에 의해 언급 된 결과가이 둘 사이에 종종 속하는 공식은 다음과 같습니다.

[-2LL0 - (-2LL1)]/-2LL0.

이것은 아래 차트에서 "L"로 표시됩니다.

여기에 이미지 설명을 입력하십시오


R2

분석 # : 다른 데이터 세트로 다양한 분석을 시도했습니다. Nagelkerke 공식은 유용하지 않지만 쉽게 사용할 수 있습니다.
rolando2

폴 앨리슨에서 상향 조절 및 콕스 스넬 식이다 Nagelkerke 식 커버 statisticalhorizons.com/2013/02를 . 블로그를 읽은 후이 토론의 대부분이 이루어진 지 2 ~ 3 년 후에 Cox & Snell의 과소 평가가 차이를 설명했으며 C & S와 Nagelkerke 결과를 평균화하는 것이 더 나을 것이라고 확신했습니다.
rolando2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.