심리학 및 기타 분야에서 다음과 같은 단계적 회귀 형태가 종종 사용됩니다.
- 나머지 예측 변수를보고 (처음에는 모형에 없음) 가장 큰 r- 제곱 변화를 초래하는 예측 변수를 식별하십시오.
- r- 제곱 변화의 p- 값이 알파보다 작 으면 (일반적으로 .05) 해당 예측 변수를 포함시키고 1 단계로 돌아가십시오. 그렇지 않으면 중지하십시오.
예를 들어, SPSS 에서이 절차를 참조하십시오 .
절차는 광범위한 이유로 정기적으로 비판을받습니다 (참조 받습니다 ( Stata 웹 사이트에서이 내용을 참조하십시오 ).
특히 Stata 웹 사이트에는 Frank Harrell의 여러 의견이 요약되어 있습니다. 주장에 관심이 있습니다.
[단계적 회귀]는 심각하게 바이어스되는 R- 제곱 값을 산출합니다.
특히, 현재 연구 중 일부는 모집단 R- 제곱 추정에 중점을 둡니다. . 모집단 r- 제곱 I에 의해 모집단의 모집단 데이터 생성 방정식으로 설명 된 분산의 백분율을 나타냅니다. 내가 검토중인 기존 문헌의 많은 부분이 단계적 회귀 절차를 사용했으며 제공된 추정치가 바이어스되는지 여부와 그 정도에 대해 알고 싶습니다. 특히, 전형적인 연구는 30 개의 예측 변수, n = 200, 0.05의 입력 알파, r- 제곱 추정값은 약 50입니다.
내가 아는 것 :
- 무증상으로, 계수가 0이 아닌 예측 변수는 통계적으로 유의 한 예측 변수이고 r- 제곱은 조정 된 r- 제곱과 같습니다. 따라서 점진적으로 단계적으로 회귀하면 실제 회귀 방정식과 실제 모집단 r- 제곱을 추정해야합니다.
- 표본 크기가 작을수록 일부 예측 변수를 생략하면 모든 예측 변수가 모형에 포함 된 것보다 r- 제곱이 작아집니다. 그러나 샘플 데이터에 대한 r- 제곱의 일반적인 바이어스는 r- 제곱을 증가시킵니다. 따라서 나의 순진한 생각은 잠재적으로,이 두 가지 반대 세력이 특정 조건에서 편견없는 r- 제곱을 초래할 수 있다는 것입니다. 보다 일반적으로, 편향의 방향은 데이터의 다양한 특징 및 알파 포함 기준에 따라 좌우 될 것이다.
- 보다 엄격한 알파 포함 기준 (예 : .01, .001 등)을 설정하면 데이터 생성시 예측 변수를 포함 할 확률이 적으므로 예상 r- 제곱을 낮추어야합니다.
- 일반적으로 r- 제곱은 모집단 r- 제곱의 상향 편향 추정치이며이 편향의 정도는 예측 변수가 많고 표본 크기가 작을수록 증가합니다.
질문
마지막으로 내 질문 :
- 단계적 회귀 분석에서 r- 제곱은 모집단 r- 제곱의 편향 추정을 어느 정도까지 초래합니까?
- 이 편차는 표본 크기, 예측 변수 수, 알파 포함 기준 또는 데이터 속성과 어느 정도 관련이 있습니까?
- 이 주제에 대한 언급이 있습니까?