저의 일반적인 이해는 AIC 가 모델의 적합도와 모델의 복잡성 간의 균형을 다루는 것입니다.
= 모형의 매개 변수 수
= 가능성
베이지안 정보 기준 BIC 는 AIC와 밀접한 관련이 있으며 AIC는 BIC보다 매개 변수 수를 덜 강하게합니다. 이 두 가지가 역사적으로 어디에서나 사용되는 것을 볼 수 있습니다. 그러나 일반화 된 교차 검증 (GCV)은 나에게 새로운 것입니다. GCV는 BIC 또는 AIC와 어떤 관련이 있습니까? 능선과 같은 패널 회귀 분석에서 페널티 용어를 선택하는 데이 기준을 함께 또는 별도로 사용하는 방법은 무엇입니까?
편집 : 다음은 생각하고 토론하는 예입니다.
require(lasso2)
data(Prostate)
require(rms)
ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
p <- pentrace(ridgefits, seq(0,1,by=.01))
effective.df(ridgefits,p)
out <- p$results.all
par(mfrow=c(3,2))
plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df" )
plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC", xlab = "df" )
plot(out$penalty, out$df, type = "l", col = "red",
xlab = expression(paste(lambda)), ylab = "df" )
plot(out$penalty, out$aic, col = "blue", type = "l",
ylab = "AIC", xlab = expression(paste(lambda)) )
plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC",
xlab= expression(paste(lambda))
require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l",
ylab = "CVM", xlab= expression(paste(lambda))