요약 : 표준 정규 분포가 아닌 로지스틱 회귀 계수의 테스트에 분포 (잔류 편차를 기반으로 한 자유도)를 사용하도록 지원하는 통계 이론이 있습니까?
얼마 전에 SAS PROC GLIMMIX의 로지스틱 회귀 모델을 피팅 할 때 기본 설정에서 로지스틱 회귀 계수가 표준 정규 분포가 아닌 분포를 사용하여 테스트됨을 발견했습니다 . 즉, GLIMMIX는 비율이 ( 이 질문의 나머지 부분에서 라고 함). ), "자유도"열 및 대한 분포 가정에 따른 값 도보고합니다.1 β 1 / √p t z 2잔류 이탈도에 기반한 자유도, 즉 자유도 = 총 관측치 수에서 매개 변수 수를 뺀 값입니다. 이 질문의 맨 아래에는 데모와 비교를 위해 R과 SAS로 코드와 출력을 제공합니다.
로지스틱 회귀와 같은 일반 선형 모델의 경우이 경우 분포 의 사용을 지원하는 통계 이론이 없다고 생각했기 때문에 이것은 혼란 스럽습니다 . 대신이 사건에 대해 우리가 알고있는 것은
- 는 "대략"정규 분포입니다.
- 이 근사치는 작은 표본 크기에 대해 좋지 않을 수 있습니다.
- 그럼에도 불구하고 정상적인 회귀의 경우에 가정 할 수있는 것처럼 에 분포 가 있다고 가정 할 수 없습니다 .t
이제, 직관적 인 수준에서, 경우에 저에게 합리적인 것처럼 보인다 근사 적으로 정규 분포, 그것은 사실 기본적으로 일부 유통 "있을 수 있습니다 정확히없는 경우에도, -like을" . 따라서 여기서 분포를 사용하는 것은 미친 것처럼 보이지 않습니다. 그러나 내가 알고 싶은 것은 다음과 같습니다.t t t
- 실제로 로지스틱 회귀 및 / 또는 다른 일반화 된 선형 모형의 경우 실제로 분포를 따른다는 통계 이론이 있습니까?t
- 그러한 이론이 없다면, 이 방법으로 분포를 가정하면 정규 분포를 가정하는 것보다 효과가 있거나 심지어 더 우수하다는 것을 보여주는 논문이 적어도 있습니까?
더 일반적으로, GLIMMIX가 기본적으로 합리적이라는 직관 외에 GLIMMIX가 수행하는 작업에 대한 실제 지원이 있습니까?
R 코드 :
summary(glm(y ~ x, data=dat, family=binomial))
R 출력 :
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
SAS 코드 :
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
SAS 출력 (편집 / 축약) :
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
사실 PROC GLIMMIX에서 혼합 효과 로지스틱 회귀 모델에 대해 처음 알게 되었고, 나중에 GLIMMIX가 "vanilla"로지스틱 회귀로도 수행함을 발견했습니다.
N 아래의 예에서 900 번의 관측 값을 보았을 때, 여기에서의 구별은 실질적인 차이가 없을 것입니다. 그건 내 요점이 아닙니다. 이것은 내가 잘 만든 숫자이기 때문에 내가 신속하게 구성하고 900을 선택한 데이터입니다. 그러나 작은 샘플 크기, 예를 들어 <30 의 실제 차이점에 대해 조금 궁금합니다 .
PROC LOGISTIC
SAS에에 기초하여 통상 왈드 형 시험 생산 -score한다. 새로운 기능 (일반화의 부산물)이 어떻게 바뀌 었는지 궁금합니다.