로지스틱 회귀 분석에 대한 Wald 테스트


55

내가 로지스틱 회귀와 관련하여 Wald 검정을 이해하는 한 특정 예측 변수 가 유의 한지 여부를 결정하는 데 사용됩니다 . 해당 계수의 귀무 가설이 0임을 거부합니다.X

테스트는 계수 값을 표준 오차 로 나누는 것으로 구성됩니다 .σ

내가 혼란스러워하는 것은 가 Z 점수로도 알려져 있으며 주어진 관측치가 정규 분포 (평균 0)에서 발생할 가능성을 나타냅니다.X/σ



2
아마도이 답변이 더 발전함에 따라 다른 방법 일 수 있습니다.
Firebug

답변:


86

로지스틱 회귀 분석 (및 모든 GLM)의 계수 및 절편 추정치는 MLE ( Maximum-likelihood Estimation) 를 통해 구합니다. 이러한 추정은 매개 변수를 통해 모자, 같은과 함께 표시된다 θ . 우리의 관심있는 매개 변수는 θ 0 으로 표시 되며 계수가 0과 다른지 여부를 테스트하려는 경우 일반적으로 0입니다. MLE의 점근 이론에서, 우리 사이의 차이 알고 θθ 0이 약 일반적으로 평균 0으로 배포됩니다 (자세한 내용은 래리 Wasserman의 어떠한 수학적 통계 책에서 찾을 수 있습니다 모든 통계 ). 표준 오류는 그 외에는 아무것도 아닙니다θ^θ0θ^θ0통계의 표준 편차 (소칼과 Rohlf는 자신의 책에서 쓰기 생체 인식 : "는 통계가 예를 들어, 평균, 평균, 표준 편차, 상관 계수, 회귀 계수, 많은 계산 또는 추정 통계 수량 중 하나입니다", ...). 평균이 0이고 표준 편차가 표준 분포를 표준 편차로 나누면 평균이 0이고 표준 편차 가 1 인 표준 정규 분포가 생성됩니다. Wald 통계량은 다음과 같이 정의됩니다 (예 : Wasserman (2006) : All of Statistics , page 153, 214). -215) W = ( β - β 0 )σ 또는 W(2)=(β-β0)(2)

W=(β^β0)se^(β^)N(0,1)
번째 형태는 표준 정규 분포의 제곱이 있다는 사실로부터 발생χ21자유 1 개 정도 - 분포는 (두개의 합은 제곱 표준 정규 분포가 될χ222 자유도 등)와 - 분포.
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-값. 에서 R,이 두 가지 예를 살펴 :

로지스틱 회귀

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


정규 선형 회귀 (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

다른 관련 게시물은 여기 에서 찾을 수 있습니다 .


1
내 모든 질문에 답변이 멋진 게시물에 대해 대단히 감사합니다.
user695652

1
실제로, 당신의 훌륭한 답변의 첫 번째 부분에 관해서 : 어떤 이유로 든 승산 비와 Wald 통계를 출력으로 가지고 있다면, 표준 오류를 다음과 같이 계산할 수 있습니다 : SE = (1 / Wald- 통계) * ln (OR) 이것이 맞습니까? 감사!
Sander W. van der Laan

1
@ SanderW.vanderLaan 귀하의 의견에 감사드립니다. 예, 맞습니다. 로지스틱 회귀 분석을 수행하면 Wald 통계는 z- 값이됩니다.
COOLSerdash

2
그런 위대한 대답 !!. 나는 몇 가지 수정 제안이 있습니다. 개인적 으로이 답변이 세부 사항을 펀치 목록과 섞고 있다고 생각합니다. 선형 회귀 분석에서 잔차 분산을 사용하는 방법에 대한 세부 정보를 별도의 그래프에 넣었습니다.
Haitao Du

1
또한 분산 매개 변수와 R 코드 연결을 위해 다른 섹션이나 분리 라인을 열어서 이야기 할 수 있습니다.
Haitao Du
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.