및 잔류 이탈 자유도를 사용하여 로지스틱 회귀 계수 테스트


12

요약 : 표준 정규 분포가 아닌 로지스틱 회귀 계수의 테스트에 분포 (잔류 편차를 기반으로 한 자유도)를 사용하도록 지원하는 통계 이론이 있습니까?t


얼마 전에 SAS PROC GLIMMIX의 로지스틱 회귀 모델을 피팅 할 때 기본 설정에서 로지스틱 회귀 계수가 표준 정규 분포가 아닌 분포를 사용하여 테스트됨을 발견했습니다 . 즉, GLIMMIX는 비율이 ( 이 질문의 나머지 부분에서 라고 함). ), "자유도"열 및 대한 분포 가정에 따른 값 도보고합니다.1 β 1 / t1β^1/var(β^1)p t z 2zptz잔류 이탈도에 기반한 자유도, 즉 자유도 = 총 관측치 수에서 매개 변수 수를 뺀 값입니다. 이 질문의 맨 아래에는 데모와 비교를 위해 R과 SAS로 코드와 출력을 제공합니다. 2

로지스틱 회귀와 같은 일반 선형 모델의 경우이 경우 분포 의 사용을 지원하는 통계 이론이 없다고 생각했기 때문에 이것은 혼란 스럽습니다 . 대신이 사건에 대해 우리가 알고있는 것은t

  • z 는 "대략"정규 분포입니다.
  • 이 근사치는 작은 표본 크기에 대해 좋지 않을 수 있습니다.
  • 그럼에도 불구하고 정상적인 회귀의 경우에 가정 할 수있는 것처럼 에 분포 가 있다고 가정 할 수 없습니다 .tzt

이제, 직관적 인 수준에서, 경우에 저에게 합리적인 것처럼 보인다 근사 적으로 정규 분포, 그것은 사실 기본적으로 일부 유통 "있을 수 있습니다 정확히없는 경우에도, -like을" . 따라서 여기서 분포를 사용하는 것은 미친 것처럼 보이지 않습니다. 그러나 내가 알고 싶은 것은 다음과 같습니다.t t tzttt

  1. 실제로 로지스틱 회귀 및 / 또는 다른 일반화 된 선형 모형의 경우 실제로 분포를 따른다는 통계 이론이 있습니까?tzt
  2. 그러한 이론이 없다면, 이 방법으로 분포를 가정하면 정규 분포를 가정하는 것보다 효과가 있거나 심지어 더 우수하다는 것을 보여주는 논문이 적어도 있습니까?t

더 일반적으로, GLIMMIX가 기본적으로 합리적이라는 직관 외에 GLIMMIX가 수행하는 작업에 대한 실제 지원이 있습니까?

R 코드 :

summary(glm(y ~ x, data=dat, family=binomial))

R 출력 :

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

SAS 코드 :

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

SAS 출력 (편집 / 축약) :

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1 사실 PROC GLIMMIX에서 혼합 효과 로지스틱 회귀 모델에 대해 처음 알게 되었고, 나중에 GLIMMIX가 "vanilla"로지스틱 회귀로도 수행함을 발견했습니다.

N2 아래의 예에서 900 번의 관측 값을 보았을 때, 여기에서의 구별은 실질적인 차이가 없을 것입니다. 그건 내 요점이 아닙니다. 이것은 내가 잘 만든 숫자이기 때문에 내가 신속하게 구성하고 900을 선택한 데이터입니다. 그러나 작은 샘플 크기, 예를 들어 <30 의 실제 차이점에 대해 조금 궁금합니다 .n


PROC LOGISTICSAS에에 기초하여 통상 왈드 형 시험 생산 -score한다. 새로운 기능 (일반화의 부산물)이 어떻게 바뀌 었는지 궁금합니다. z
Affine

1
SPSS는 같은 방식으로 로지스틱 혼합 효과 모델을 테스트하는 것으로 보입니다. (
Richard Border

답변:


6

로지스틱 회귀 및 / 또는 다른 일반화 된 선형 모형의 경우 z가 분포에서 실제로 따른다는 사실을 보여주는 통계 이론이 있습니까?

내가 아는 한, 그러한 이론은 존재하지 않습니다. 나는 정기적으로 손으로 말다툼을 펼치고 때로는 특정 GLM 패밀리 또는 다른 GLM 제품군에 대한 이러한 접근 방식을 지원하기 위해 시뮬레이션 실험을 봅니다. 시뮬레이션은 손으로 쓰는 논쟁보다 더 설득력이 있습니다.

그러한 이론이 없다면, 이런 식으로 분포를 가정 할 때 정규 분포를 가정하는 것보다 효과가 있거나 심지어 더 나은 것으로 보이는 논문이 적어도 있습니까?

내가 본 것을 기억하지는 않지만 많이 말하는 것은 아닙니다.

내 자신의 (제한된) 작은 표본 시뮬레이션은 로지스틱 사례에서 t- 분포를 가정하는 것이 정규 가정을 가정하는 것보다 실질적으로 더 나쁠 수 있다고 가정합니다.

여기에 이미지 설명을 입력하십시오

예를 들어, 여기에는 모집단 매개 변수가 모두 0 인 15 개의 등 간격 x 관측치에 대한 일반 로지스틱 회귀 (즉, 고정 효과, 혼합되지 않음)에 대한 Wald 통계량의 10000 시뮬레이션 결과 (QQ 플롯)가 있습니다. 빨간색 선은 y = x 선입니다. 보시다시피, 각 경우에 정상은 중간에서 약 5 및 95 백분위 수 (1.6-1.7ish)에서 좋은 범위에 걸쳐 꽤 좋은 근사치입니다. 그러면 테스트 통계의 실제 분포는 보통보다 꼬리가 가볍습니다.

따라서 물류 사례의 경우 z 대신 t를 사용한다는 주장은이 근거로는 성공하지 못할 것으로 보입니다. 이러한 시뮬레이션은 결과가 더 밝은 꼬리에있을 수 있음을 시사하는 경향이 있기 때문에 무거운 꼬리보다는 정상의 측면.

[그러나 나는 당신이 시뮬레이션을 경고하는 것 이상으로 내 시뮬레이션을 더 이상 신뢰하지 않는 것이 좋습니다-아마도 IV와 모델의 전형적인 자신의 상황을 더 대표하는 상황에 대비해 직접 시도해보십시오 (물론 시뮬레이션해야합니다) 널 (null) 아래에서 어떤 분배를 사용할 것인지보기 위해 널 (null)이 참인 경우). 그들이 어떻게 당신을 위해 나오는지 듣고 싶습니다.]


1
고마워 글렌. 그것은 분포가 실제로는 꼬리가 아닌 보통보다 밝은 꼬리에 관한 흥미로운 결과입니다. 뒤에 심지어 기본적인 직관 것 같다 그래서 아이디어는 적어도 몇 가지 현실적인 경우에, 마크 꺼져 있습니다. t
Jake Westfall

4

다음은 Glen_b에서 이미 제시 한 내용을 약간 확장하기위한 몇 가지 추가 시뮬레이션입니다.

이 시뮬레이션에서 나는 예측자가 에서 균일 한 분포를 갖는 로지스틱 회귀의 기울기를 보았다 . 실제 회귀 기울기는 항상 0이었습니다. 총 샘플 크기 ( )와 이항 반응의 기본 속도 ( )를 변경했습니다.N = 10 , 20 , 40 , 80 p = 0.5 , 0.731 , 0.881 , 0.952[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

다음은 관측 된 값 (Wald 통계)을 해당 분포 의 이론적 Quantile ( ) 과 비교하는 QQ 플롯 입니다. 이는 각 매개 변수 조합에 대해 1000 회 실행을 기준으로합니다. 공지 작은 샘플 크기 극단적베이스 속도로 (즉, 도면의 오른쪽 영역), 응답이 단일 값만 취했다 많은 경우는,이 있다고하는 경우에 및 -value . t d f = N 2 z = 0 p = 1ztdf=N2z=0p=1QQsim

다음은 동일한 분포를 기반으로 로지스틱 회귀 기울기에 대한 의 분포를 보여주는 막대 그래프 입니다. 이는 각 매개 변수 조합에 대해 10,000 회 실행을 기준으로합니다. -values은 (총 20 개의 빈들) 폭 0.05 빈들로 분류된다. 점선 수평선은 5 % 표시, 즉 frequency = 500을 표시합니다. 물론, 귀무 가설 하에서 의 분포 가 균일하기를 원합니다. 즉, 모든 막대가 점선 주위에 있어야합니다. 그림의 오른쪽 상단에있는 많은 퇴화 사례를 다시 주목하십시오. t p pptpp히 스트 심

결론적 으로이 경우 분포를 사용 하면 표본 크기가 작거나 기본 속도가 0 또는 1에 가까울 때 매우 보수적 인 결과를 초래할 수 있습니다.t


3

둘 다 잘 했어 Bill Gould는 http://www.citeulike.org/user/harrelfe/article/13264166 에서 이것을 표준 고정 효과 이진 로지스틱 모델에서 같은 결론을 내어 연구했습니다 .

간단히 말하면, 로지스틱 모델에는 오차 항이 없기 때문에 추정 할 잔차가 없기 때문에 분포는 [적어도 여러 대치 조정의 컨텍스트 외부에서] 적용되지 않습니다.t

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.