간단한 예제를 위해 두 개의 선형 회귀 모델이 있다고 가정합니다.
- 모델 1은이 세 가지 예측,
x1a
,x2b
, 및x2c
- 모형 2에는 모형 1의 예측 변수 3 개와 추가 예측 변수 2 개가
x2a
있으며x2b
설명 된 모집단 분산이 모형 1의 경우 이고 모형 2의 경우 모집단 회귀 방정식이 있습니다. 모집단의 모형 2가 설명하는 증분 분산은
나는의 추정에 대한 표준 오차와 신뢰 구간을 얻기에 관심 . 이 예에는 각각 3 개와 2 개의 예측 변수가 포함되어 있지만 필자의 연구 관심 분야에는 다양한 수의 예측 변수 (예 : 5와 30)가 있습니다. 내 첫 번째 생각은 를 추정기로 사용하고 부트 스트랩하는 것이었지만 이것이 적절한 지 확실하지 않았습니다.
질문
- 가요 합리적인 추정 ?
- 모집단 r- 제곱 변화 (즉, )에 대한 신뢰 구간을 어떻게 얻을 수 있습니까?
- 부트 스트랩 가 신뢰 구간 계산에 적합합니까?
시뮬레이션이나 출판 된 문헌에 대한 언급도 환영합니다.
예제 코드
도움이된다면 R에 작은 시뮬레이션 데이터 세트를 작성하여 답변을 시연하는 데 사용할 수 있습니다.
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
부트 스트랩에 대한 우려 이유
약 300 건의 사례와 간단한 모델에서는 5 명의 예측 변수, 전체 모델에서는 30 명의 예측 변수로 부트 스트랩을 실행했습니다. 조정 된 r- 제곱 차이를 사용한 표본 추정치는 0.116
이지만, 증폭 된 신뢰 구간은 대부분 CI95 % (0.095 ~ 0.214)였으며 부트 스트랩의 평균은 표본 추정치 근처에 없었습니다. 오히려, 증폭 된 샘플의 평균은 샘플에서 r- 제곱 사이의 차이의 샘플 추정치에 중심을 둔 것으로 나타났다. 이것은 차이를 추정하기 위해 샘플 조정 r- 제곱을 사용하고 있다는 사실에도 불구하고 있습니다.
흥미롭게도 나는 다른 방법으로 를 계산하려고 시도했다.
- 표본 제곱 변화 계산
- 표준 조정 된 r- 제곱 공식을 사용하여 샘플 r- 제곱 변경을 조정하십시오.
표본 데이터에 적용 할 때 이것은 의 추정치 를 줄 였지만 신뢰 구간은 처음 언급 한 방법 인 CI95 % (.062, .179)에 대해 .118의 평균으로 적합 해 보였습니다..082
대체로 부트 스트래핑은 표본이 모집단이라고 가정하므로 과적 합에 대한 감소가 제대로 수행되지 않을 수 있습니다.