AIC, BIC 및 GCV : 처벌 적 회귀 분석법에서 결정을 내리는 데 가장 적합한 것은 무엇입니까?

저의 일반적인 이해는 AIC 가 모델의 적합도와 모델의 복잡성 간의 균형을 다루는 것입니다.

$AIC =2k -2ln(L)$

$k$ = 모형의 매개 변수 수

$L$ = 가능성

베이지안 정보 기준 BIC 는 AIC와 밀접한 관련이 있으며 AIC는 BIC보다 매개 변수 수를 덜 강하게합니다. 이 두 가지가 역사적으로 어디에서나 사용되는 것을 볼 수 있습니다. 그러나 일반화 된 교차 검증 (GCV)은 나에게 새로운 것입니다. GCV는 BIC 또는 AIC와 어떤 관련이 있습니까? 능선과 같은 패널 회귀 분석에서 페널티 용어를 선택하는 데이 기준을 함께 또는 별도로 사용하는 방법은 무엇입니까?

편집 : 다음은 생각하고 토론하는 예입니다.

    require(lasso2)
    data(Prostate)
    require(rms)

    ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
           method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
    p <- pentrace(ridgefits, seq(0,1,by=.01))
    effective.df(ridgefits,p)
    out <- p$results.all
    par(mfrow=c(3,2))
    plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df"  )
    plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC",  xlab = "df" )
    plot(out$penalty, out$df,  type = "l", col = "red", 
     xlab = expression(paste(lambda)), ylab = "df" )
    plot(out$penalty, out$aic, col = "blue", type = "l",  
      ylab = "AIC", xlab = expression(paste(lambda))  )
    plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC", 
      xlab= expression(paste(lambda))

require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l", 
      ylab = "CVM",   xlab= expression(paste(lambda))

여기에 이미지 설명을 입력하십시오

— 램 샤르마
소스

답변:

$\lambda$

— 프랭크 하렐
소스

훌륭한 이론적 해석과 베이지안 문맥에서 "이론적"-기반 우도 비 대 "무신론적"예측 오차도 의미가 있습니다.

— shadowtalker

AIC에서 정규화 된 솔루션에 대한 "유효 자유도"를 계산하고 사용하는 방법을 자세히 설명하는 데 도움이 될 것입니다.

— Brian Borchers

R rms패키지 effective.df함수 의 코드 와 내 책 Regression Modeling Strategies를 참조하십시오. Robert Gray의 주된 아이디어는 벌점이없는 공분산 행렬과 벌점이있는 공분산 행렬을 고려한다는 것입니다. 이 두 종류의 비율에 대한 대각선의 합은 효과적인 df를 제공합니다

— Frank Harrell

@ FrankHarrell : 당신을 올바르게 이해한다면- glmnet(각각 다른 람다 매개 변수가있는) 모델을 계산하고 각 모델의 AIC를 계산 한 다음 AIC가 가장 낮은 모델에 해당하는 람다를 선택하는 것이 좋습니다? 이것은 기본적으로 교차 검증을 사용하는 것 외에 람다 매개 변수를 선택하는 또 다른 방법입니다. 내가 맞아?

— Corel

효과적인 AIC를 얻을 수 있도록 효과적인 매개 변수 수 rms를 effective.df계산할 때 몇 가지 피팅 함수 가있는 패키지 컨텍스트에서 작성하고있었습니다 . 이것은 CV '를 사용한 교차 유효성 검사에서 얻은 것과 비슷합니다. 참조 이

— 프랭크 하렐

이것에 대한 내 자신의 생각은별로 수집되지 않지만 여기에 도움이 될만한 점이 있습니다.

AIC의 베이지안 해석은 예상 로그 포인트 별 예측 밀도, 즉 샘플 외부 예측 오류에 대한 편향 보정 근사치입니다. 이 해석은 Gelman, Hwang 및 Vehtari (2013)에 잘 정리되어 있으며 Gelman의 블로그 에서도 간략하게 설명되어 있습니다 . 교차 검증은 동일한 것과 다른 근사치입니다.

한편, BIC는 특정 사전 (“ Raftery, 1999 ”에 잘 설명 되어 있음)에서“ 베이지 계수 ”에 대한 근사치 입니다. 이것은 가능성 비율의 거의 베이지안 유사체입니다.

AIC와 BIC의 흥미로운 점은 처벌 회귀 에도 베이지안 해석 이 있다는 것 입니다. 이 이전 질문에 대한 자세한 정보 와 Kyung, Gill, Ghosh 및 Casella (2010) 에 대한 정보가 더 있습니다.

이것은 베이지안으로 생각하고 모델링함으로써 약간의 마일리지 또는 적어도 더 일관된 연구 디자인을 얻을 수 있음을 제안합니다. 나는 이것이 고차원 기계 학습과 같은 많은 응용 분야에서 조금 드문 일이며 정규화에 대한 더 해석 가능한 기하학적 및 손실 함수 해석에서 다소 제거되었다는 것을 알고 있습니다. 최소한 AIC와 BIC를 결정하고 평신도, 비 통계 지향적 동료 / 보스 등과의 차이점을 설명하기 위해 베이지안 해석에 크게 의존합니다.

$\lambda$

교차 검증으로 튜닝 매개 변수를 선택하는 것은 계층 적 베이의 특정 구현입니다.

— 그림자 추적자
소스