로지스틱 회귀 출력, 카이 제곱 검정 및 OR에 대한 신뢰 구간에서 p- 값이 다른 이유는 무엇입니까?

처리 후 ( Curevs No Cure) 결과 변수를 치료하는 로지스틱 회귀 분석을 작성했습니다 . 이 연구의 모든 환자는 치료를 받았다. 당뇨병이이 결과와 관련이 있는지 확인하고 싶습니다.

R에서 로지스틱 회귀 출력은 다음과 같습니다.

Call:
glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients)
...
Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   1.2735     0.1306   9.749   <2e-16 ***
Diabetes     -0.5597     0.2813  -1.990   0.0466 *  
...
    Null deviance: 456.55  on 415  degrees of freedom
Residual deviance: 452.75  on 414  degrees of freedom
  (2 observations deleted due to missingness)
AIC: 456.75

그러나 승산 비에 대한 신뢰 구간 에는 1이 포함됩니다 .

                   OR     2.5 %   97.5 %
(Intercept) 3.5733333 2.7822031 4.646366
Diabetes    0.5713619 0.3316513 1.003167

이 데이터에 대해 카이 제곱 테스트를 수행하면 다음과 같은 결과가 나타납니다.

data:  check
X-squared = 3.4397, df = 1, p-value = 0.06365

자체적으로 계산하려면 치료 및 치료되지 않은 그룹의 당뇨병 분포는 다음과 같습니다.

Diabetic cure rate:      49 /  73 (67%)
Non-diabetic cure rate: 268 / 343 (78%)

내 질문은 : 왜 p- 값과 1을 포함한 신뢰 구간이 일치하지 않습니까?

— 스나이퍼 브로 2000
소스

당뇨병에 대한 신뢰 구간은 어떻게 계산 되었습니까? 매개 변수 추정치 및 표준 오류를 사용하여 Wald CI를 구성하면 상단 끝점으로 exp (-. 5597 + 1.96 * .2813) = .99168가 표시됩니다.

— hard2fathom

@ hard2fathom, OP가 사용했을 가능성이 높습니다 confint(). 즉, 가능성이 프로파일 링되었다. 그렇게하면 LRT와 유사한 CI를 얻을 수 있습니다. 계산은 옳지 만 대신 Wald CI를 구성합니다. 아래 답변에 더 많은 정보가 있습니다.

— gung-복직 모니카

좀 더주의 깊게 읽은 후 그것을 찬성했습니다. 맞는 말이다.

— hard2fathom

일반화 된 선형 모형을 사용하면 실행할 수있는 세 가지 다른 유형의 통계 검정이 있습니다. 다음은 Wald 검정, 우도 비율 검정 및 점수 검정입니다. 우수한 UCLA 통계 도움말 사이트 에서 여기에 대한 토론이 있습니다 . 사이트에서 복사 한 다음 그림은이를 설명하는 데 도움이됩니다.

여기에 이미지 설명을 입력하십시오

왈드 테스트 확률이 정규 분포되어 있다고 가정하고, 그 기초하여, 표준 오차를 추정하기 위해 만곡의 정도를 사용한다. 그런 다음 모수 추정값을 SE로 나눈 값은 점수입니다. 이것은 큰 에서 유지되지만 더 작은 사실이 아닙니다 . 이이 특성을 보유하기에 충분히 클 때 말하기 어렵 기 때문에이 테스트는 약간 위험 할 수 있습니다. $z$ $N$ $N$ $N$
우도 비율 검정 은 최대와 널에서 우도 (또는 로그 우도의 차이)의 비율을 확인합니다. 이것은 종종 최고의 테스트로 간주됩니다.
점수 시험은 널 (null) 값의 가능성의 기울기에 근거한다. 이것은 일반적으로 덜 강력하지만 전체 가능성을 계산할 수없는 경우가 있으므로 이는 대체 옵션입니다.

함께 제공 summary.glm()되는 테스트는 Wald 테스트입니다. 당신은 당신이 당신의 신뢰 구간을 어떻게 얻었는지 말하지 않지만, 나는 당신이 전화했다고 가정 confint()합니다 profile(). 보다 구체적으로, 이러한 신뢰 구간은 가능성을 프로파일 링하여 계산합니다 (SE에 곱하는 것보다 더 나은 방법입니다 ). 즉, Wald 검정이 아닌 우도 비 검정과 유사합니다. -test, 차례에서, 점수 테스트. $1.96$ $\chi^2$

당신으로 무기한 커지고, 세 개의 다른 의 같은 값에 수렴해야하지만, 당신은 무한한 데이터가없는 경우 그들은 약간 다를 수 있습니다. 초기 출력에서 (Wald) 값은 거의 중요하지 않으며 ( quote ) 바로 아래와 거의 차이가 거의 없습니다 . 그 라인은 '마법'이 아닙니다. 보다 신뢰할 수있는 두 가지 테스트가 약간 넘어서는 것을 감안할 때 , 귀하의 데이터는 일반적인 기준에 따라 '의미 적'이지 않다고 말할 수 있습니다. $N$ $p$ $p$ $\alpha=.05$ $.05$

아래에서 선형 예측 변수의 척도에 계수를 프로파일 링하고 우도 비 검정을 통해 (를 통해 anova.glm()) 명시 적으로 실행합니다 . 나는 당신과 같은 결과를 얻습니다.

library(MASS)
x = matrix(c(343-268,268,73-49,49), nrow=2, byrow=T);  x
#      [,1] [,2]
# [1,]   75  268
# [2,]   24   49
D = factor(c("N","Diabetes"), levels=c("N","Diabetes"))
m = glm(x~D, family=binomial)
summary(m)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept)  -1.2735     0.1306  -9.749   <2e-16 ***
# DDiabetes     0.5597     0.2813   1.990   0.0466 *  
# ...
confint(m)
# Waiting for profiling to be done...
#                    2.5 %    97.5 %
# (Intercept) -1.536085360 -1.023243
# DDiabetes   -0.003161693  1.103671
anova(m, test="LRT")
# ...
#      Df Deviance Resid. Df Resid. Dev Pr(>Chi)  
# NULL                     1     3.7997           
# D     1   3.7997         0     0.0000  0.05126 .
chisq.test(x)
#         Pearson's Chi-squared test with Yates' continuity correction
# 
# X-squared = 3.4397, df = 1, p-value = 0.06365

@JWilliman이 주석에서 지적했듯이 (현재 삭제됨)에서을 R사용하여 점수 기반 p- 값을 얻을 수도 있습니다 anova.glm(model, test="Rao"). 기본적으로 주 때문에, 아래의 예에서, P 값은, 상기 카이 제곱 검정에서와 완전히 동일하지 R의이 chisq.test()연속성 보정을 적용한다. 해당 설정을 변경하면 p- 값이 다음과 일치합니다.

anova(m, test="Rao")
# ...
#      Df Deviance Resid. Df Resid. Dev   Rao Pr(>Chi)  
# NULL                     1     3.7997                 
# D     1   3.7997         0     0.0000 4.024  0.04486 *
chisq.test(x, correct=FALSE)
#   Pearson's Chi-squared test
# 
# data:  x
# X-squared = 4.024, df = 1, p-value = 0.04486

— gung-복직 모니카
소스

+1 이것은 약간의 신비한 행동을 명확하고 권위있게 다루고 유용한 지침을 제공하는 매우 유익한 분석입니다.

— whuber

"나는 당신의 데이터가 기존의 기준에 의해 '중요하지 않다'고 말하고 싶다"는 말의 의미를 이해하지 못하지만 좋은 대답입니다.

— mark999

@ mark999, 여기서 가장 신뢰할 수있는 테스트 (LRT 및 카이 제곱)는 모두 .05보다 약간 높습니다.

— 복직 모니카