단계적 회귀는 모집단 r- 제곱의 편향 추정치를 제공합니까?


14

심리학 및 기타 분야에서 다음과 같은 단계적 회귀 형태가 종종 사용됩니다.

  1. 나머지 예측 변수를보고 (처음에는 모형에 없음) 가장 큰 r- 제곱 변화를 초래하는 예측 변수를 식별하십시오.
  2. r- 제곱 변화의 p- 값이 알파보다 작 으면 (일반적으로 .05) 해당 예측 변수를 포함시키고 1 단계로 돌아가십시오. 그렇지 않으면 중지하십시오.

예를 들어, SPSS 에서이 절차를 참조하십시오 .

절차는 광범위한 이유로 정기적으로 비판을받습니다 (참조 받습니다 ( Stata 웹 사이트에서이 내용을 참조하십시오 ).

특히 Stata 웹 사이트에는 Frank Harrell의 여러 의견이 요약되어 있습니다. 주장에 관심이 있습니다.

[단계적 회귀]는 심각하게 바이어스되는 R- 제곱 값을 산출합니다.

특히, 현재 연구 중 일부는 모집단 R- 제곱 추정에 중점을 둡니다. . 모집단 r- 제곱 I에 의해 모집단의 모집단 데이터 생성 방정식으로 설명 된 분산의 백분율을 나타냅니다. 내가 검토중인 기존 문헌의 많은 부분이 단계적 회귀 절차를 사용했으며 제공된 추정치가 바이어스되는지 여부와 그 정도에 대해 알고 싶습니다. 특히, 전형적인 연구는 30 개의 예측 변수, n = 200, 0.05의 입력 알파, r- 제곱 추정값은 약 50입니다.

내가 아는 것 :

  • 무증상으로, 계수가 0이 아닌 예측 변수는 통계적으로 유의 한 예측 변수이고 r- 제곱은 조정 된 r- 제곱과 같습니다. 따라서 점진적으로 단계적으로 회귀하면 실제 회귀 방정식과 실제 모집단 r- 제곱을 추정해야합니다.
  • 표본 크기가 작을수록 일부 예측 변수를 생략하면 모든 예측 변수가 모형에 포함 된 것보다 r- 제곱이 작아집니다. 그러나 샘플 데이터에 대한 r- 제곱의 일반적인 바이어스는 r- 제곱을 증가시킵니다. 따라서 나의 순진한 생각은 잠재적으로,이 두 가지 반대 세력이 특정 조건에서 편견없는 r- 제곱을 초래할 수 있다는 것입니다. 보다 일반적으로, 편향의 방향은 데이터의 다양한 특징 및 알파 포함 기준에 따라 좌우 될 것이다.
  • 보다 엄격한 알파 포함 기준 (예 : .01, .001 등)을 설정하면 데이터 생성시 예측 변수를 포함 할 확률이 적으므로 예상 r- 제곱을 낮추어야합니다.
  • 일반적으로 r- 제곱은 모집단 r- 제곱의 상향 편향 추정치이며이 편향의 정도는 예측 변수가 많고 표본 크기가 작을수록 증가합니다.

질문

마지막으로 내 질문 :

  • 단계적 회귀 분석에서 r- 제곱은 모집단 r- 제곱의 편향 추정을 어느 정도까지 초래합니까?
  • 이 편차는 표본 크기, 예측 변수 수, 알파 포함 기준 또는 데이터 속성과 어느 정도 관련이 있습니까?
  • 이 주제에 대한 언급이 있습니까?

3
Stata FAQ의 주요 버전은 Frank Harrell의 2001 년 저서 인 Regression 모델링 전략 을 인용했습니다 . 뉴욕 : 스프링거. 여기서부터 시작하겠습니다.
Nick Cox

3
Nick Cox가 언급 한 @FrankHarrell의 책을 읽는 것이 좋습니다. 나는 정기적으로 나의 대학원생을 배정하고 그것을 읽는 학생들에게 경의를 표합니다 (특히 4 장). 변수 선택이있을 때 R ^ 2가 치우친다는 것은 모집단 상관이 0 인 많은 데이터 세트 (예 : n = 100, p = 50)를 시뮬레이션 한 다음 표시하려는 변수 선택 절차를 수행하면 쉽게 알 수 있습니다. 그것에.
Glen_b-복지 주 모니카

5
R2

3
모집단 R ^ 2가 0이면 단계적 선택을 사용하지 않더라도 샘플 R ^ 2가 바이어스되는 것으로 생각합니다. 모집단 R ^ 2가 0이 아닌 경우에도 편향 될 것이라고 의심하지만 확실하지는 않습니다.
mark999

2
R2

답변:



2

개요

R2ρ2

R2ρ2R2ρ2R2R2R2ρ2

R2

R2ρ2ρ2

시뮬레이션

다음 시뮬레이션에는 모집단 r- 제곱이 40 % 인 상관되지 않은 4 개의 예측 변수가 있습니다. 두 예측 변수는 각각 20 %를 설명하고 다른 두 예측 변수는 0 %를 설명합니다. 시뮬레이션은 1000 개의 데이터 세트를 생성하고 각 데이터 세트에 대한 백분율로 단계적 회귀 r 제곱을 추정합니다.

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

다음 코드는 .01, .001, .0001 및 .00001을 입력 할 때 알파가 포함 된 r- 제곱을 반환합니다.

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

다음 결과는 5 개의 알파 항목 각각에 대한 편향을 나타냅니다. 차이점을 더 쉽게 볼 수 있도록 r-square에 100을 곱했습니다.

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

결과는 .01 및 .001 항목의 알파가 양의 바이어스를 초래하고 .0001 및 .00001 항목의 알파는 음의 바이어스를 초래한다는 것을 제안합니다. 따라서 .0005 주위의 진입 알파는 편향된 단계적 회귀를 초래할 것입니다.

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

이것으로부터 얻은 주요 결론은 단계적 회귀가 본질적으로 특정 방향으로 편향되지 않는다는 것입니다. 즉, 예측 변수 입력의 p- 값 하나를 제외하고는 모두 약간 편향됩니다. @Peter Flom은 실제 세계에서는 데이터 생성 프로세스를 모른다고 지적합니다. 그러나이 편향이 어떻게 변하는가, n, 진입 알파, 데이터 생성 프로세스 및 단계적 회귀 절차 (예를 들어, 백 워드 패스 포함)가 이러한 편견을 이해하는 데 실질적으로 도움이 될 수있는 방법에 대한보다 자세한 탐구를 상상해보십시오.

참고 문헌

  • 하렐, FE (2001). 회귀 모델링 전략 : 선형 모형, 로지스틱 회귀 및 생존 분석에 적용 할 수 있습니다. 봄 병아리.

그것은 여전히 ​​편견입니다 (내가 말했듯이), 편견을 많이 줄였습니다.
Jeremy Miles

@JeremyMiles 예. 그러나 본질적으로 특정 방향으로 편향되지는 않습니다.
Jeromy Anglim 2016 년

@FrankHarrell이이 문제를 해결하는 데 관심이 있습니다.
Glen_b-복지 주 모니카

1
+1 좋은 일입니다! 그러나 당신의 결론이 달라져서는 안됩니까? 허락하다 "에스()"추정하다 아르 자형2 p-to-enter와 함께 단계적 회귀 사용 . 특정 인구에 대해 하나 이상 존재한다는 데 동의하고 부분적으로 설명했습니다. 어떤 에스()편견이 없습니다. 좋아요 :하지만 어떻게 선택합니까? 당신은 그것이 무엇인지 알 수없는 경우, 그것은 당신에게 당신이 시작 맞아요 등을 보이지만, 이번에는 당신이 알고 있음에스() 운이 좋은 추측을하지 않으면 "내재적으로"편향됩니다 .
whuber

1
@ whuber 나는 당신이 언급 한 몇 가지 요점을 명확하게하기 위해 마지막 단락을 조정했습니다.
Jeromy Anglim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.