교차 검증 및 순서 형 로지스틱 회귀

12

순서 형 로지스틱 회귀 분석에 대한 교차 유효성 검사를 이해하려고합니다. 게임의 목표는 분석에 사용 된 모델의 유효성을 검사하는 것입니다.

먼저 장난감 데이터 세트를 구성합니다.

set.seed(1)
N <- 10000
# predictors
x1 <- runif(N)
x2 <- runif(N)
x3 <- runif(N)

# coeffs in the model
a <- c(-2,-1)
x <- -x1+2*x2+x3

# P( y ≤ i ) is given by logit^{-1} ( a[i]+x )
p <- outer(a,x, function(a,x) 1/(1+exp(-a-x)) )

# computing the probabilities of each category
q <- 1 - p[2,]
p[2,] <- p[2,] - p[1,];
p <- rbind(p,q);

# outcome
y <- ordered( apply( p, 2, function(p) which(rmultinom(1,1,p)>0) ) )

이제 lrm패키지에서 사용하는 모델에 맞습니다 rms.

require("rms")
fit <- lrm(y~x1+x2+x3, x=TRUE,y=TRUE)


> fit

Logistic Regression Model

lrm(formula = y ~ x1 + x2 + x3, x = TRUE, y = TRUE)

                      Model Likelihood     Discrimination    Rank Discrim.
                         Ratio Test            Indexes          Indexes   
Obs         10000    LR chi2    1165.46    R2       0.126    C       0.664
 1           2837    d.f.             3    g        0.779    Dxy     0.328
 2           2126    Pr(> chi2) <0.0001    gr       2.178    gamma   0.329
 3           5037                          gp       0.147    tau-a   0.203
max |deriv| 4e-10                          Brier    0.187                 

     Coef    S.E.   Wald Z Pr(>|Z|)
y>=2  2.1048 0.0656  32.06 <0.0001
y>=3  1.0997 0.0630  17.45 <0.0001
x1    0.8157 0.0675  12.09 <0.0001
x2   -1.9790 0.0701 -28.21 <0.0001
x3   -1.0095 0.0687 -14.68 <0.0001

결과의 두 번째 부분을 이해합니다. 모델에 넣은 계수가 여기에 있습니다 (거의 완벽합니다 N = 100000). 내 모델에서는 coeffs를 사용하여 및 의 확률을 계산했기 때문에 부호가 반대입니다 . 여기서는 다른 방법입니다. $\le 1$ $\le 2$

그러나 나는 차별과 순위 차별 지수를 이해하지 못합니다 . 도와주세요?! 몇 가지 포인터?

교차 유효성 검사로 전환하면 상황이 악화됩니다 ...

> validate(fit, method="cross")
          index.orig training    test optimism index.corrected  n
Dxy           0.3278   0.3278  0.3290  -0.0012          0.3291 40
R2            0.1260   0.1260  0.1313  -0.0053          0.1313 40
Intercept     0.0000   0.0000 -0.0072   0.0072         -0.0072 40
Slope         1.0000   1.0000  1.0201  -0.0201          1.0201 40
Emax          0.0000   0.0000  0.0056   0.0056          0.0056 40
D             0.1164   0.1165  0.1186  -0.0021          0.1186 40
U            -0.0002  -0.0002 -0.8323   0.8321         -0.8323 40
Q             0.1166   0.1167  0.9509  -0.8342          0.9509 40
B             0.1865   0.1865  0.1867  -0.0001          0.1867 40
g             0.7786   0.7786  0.7928  -0.0142          0.7928 40
gp            0.1472   0.1472  0.1478  -0.0007          0.1478 40

Mmffff? 이게 뭐야? 이것을 어떻게 해석합니까? 매뉴얼 페이지에는 설명이 거의 없으며, 이 백서에 액세스 할 수 없습니다 ... 복잡한 바다에 압도되는 느낌이 듭니다. 도와주세요!

— 엘비스
소스

11

index.origindex.correctedDxy $D_{xy}$ $D_{xy} = 2(C - \frac{1}{2})$ $C$ InterceptSlopeEmaxB

방법은 내 책 또는이 책의 웹 사이트에있는 코스 노트에 설명되어 있습니다. http://biostat.mc.vanderbilt.edu/rms

— 프랭크 하렐
소스

고마워, 프랭크 책이 패키지를 참조합니까? Dxy에 대한 자세한 내용이 포함되어 있습니까?

— Elvis

1

Designrms

D_{x y}

$D_{xy}$

감사. 몇 시간 동안 봤지만 찾지 못했습니다. 나는 당신의 책을 구입할 것입니다.

— Elvis

1

첫 번째 질문 : 다른 모델 성능 측정입니다. 당신은 그들 중 일부는 크기를 원하고 다른 것들은 작기를 원합니다. 사실 그들은 어떻게 든 관련되어 있으므로 한두 가지에 집중할 것을 제안합니다.

두 번째 질문 : 첫 번째 R 출력에있는 것은 훈련 샘플에 대한 모델 성능입니다. 교차 유효성 검사를 통해 유효성 검사를 수행하면 여러 테스트 샘플 및 해당 평균에 대한 측정 값을 얻을 수 있습니다. 이를 통해 모델의 성능을보다 사실적으로 추정 할 수 있습니다.

HTH

— FMZ
소스