예를 들어 선형 회귀 모델을 생각해 봅시다. 데이터 마이닝에서 AIC 기준을 기반으로 단계별 선택을 수행 한 후 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것이 잘못되었다고 들었습니다. 모델에 남아있는 모든 변수를 0과 다른 실제 회귀 계수로 간주해야한다고 들었습니다. 아무도 왜 나에게 설명 할 수 있습니까? 고맙습니다.
예를 들어 선형 회귀 모델을 생각해 봅시다. 데이터 마이닝에서 AIC 기준을 기반으로 단계별 선택을 수행 한 후 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것이 잘못되었다고 들었습니다. 모델에 남아있는 모든 변수를 0과 다른 실제 회귀 계수로 간주해야한다고 들었습니다. 아무도 왜 나에게 설명 할 수 있습니까? 고맙습니다.
답변:
AIC 기준에 따라 단계적 선택을 수행 한 후, 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것은 잘못된 것입니다.
실제로 p- 값은 귀무 가설이 참일 때 적어도 자신이 가지고있는 것보다 극한의 검정 통계량을 볼 확률을 나타냅니다. 경우 에 해당하고, P 값은 균일 한 분포를 가져야한다.
그러나 단계적 선택 후 (또는 실제로 모형 선택에 대한 다양한 다른 접근 방식 이후) 모형에 남아있는 항의 p- 값에는 귀무 가설이 참이라는 사실을 알고 있더라도 해당 특성이 없습니다.
이는 사용하는 정확한 기준에 따라 p- 값이 작거나 작은 변수를 선택하기 때문에 발생합니다. 이는 모델에 남아있는 변수의 p- 값이 단일 모델에 적합했을 때보 다 훨씬 작다는 것을 의미합니다. 모델 클래스에 실제 모델이 포함되어 있거나 모델 클래스가 실제 모델과 거의 비슷할 정도로 유연 할 경우 선택은 실제 모델보다 훨씬 더 적합한 모델을 선택합니다.
[또한 기본적으로 동일한 이유로 남아있는 계수는 0에서 멀어지고 표준 오차는 낮게 바이어스됩니다. 이는 신뢰 구간과 예측에도 영향을 미칩니다. 예를 들어 예측 범위가 너무 좁을 것입니다.]
이러한 효과를 확인하기 위해 일부 계수가 0이고 일부 계수가 아닌 경우 다중 회귀 분석을 수행 할 수 있습니다. 단계별 절차를 수행 한 다음 계수가 0 인 변수가 포함 된 모형의 경우 p- 값을 확인하십시오.
(동일한 시뮬레이션에서 계수의 추정치 및 표준 편차를보고 0이 아닌 계수에 해당하는 계수도 영향을 받는다는 것을 알 수 있습니다.)
즉, 일반적인 p- 값을 의미있는 것으로 간주하는 것은 적절하지 않습니다.
모델에 남아있는 모든 변수를 대신 중요하게 고려해야한다고 들었습니다.
단계별로 모델의 모든 값을 '유의 한 것으로'간주해야하는지에 대해, 그것이 그것을 보는 데 유용한 방법인지 확실하지 않습니다. "의미"란 무엇을 의미 하는가?
다음 stepAIC
은 n = 100이고 10 개의 후보 변수 (둘 중 하나는 응답과 관련이 없음) 인 1000 개의 시뮬레이션 된 샘플에서 기본 설정으로 R을 실행 한 결과입니다 . 각 경우에 모형에 남아있는 항의 수를 세었습니다.
시간의 15.5 %만이 올바른 모델을 선택했습니다. 나머지 시간에는 모형에 0과 다르지 않은 항이 포함되었습니다. 후보 변수 세트에 0 계수 변수가 실제로 가능한 경우 모델에서 실제 계수가 0 인 여러 항이있을 수 있습니다. 결과적으로 모든 것을 0이 아닌 것으로 간주하는 것이 바람직하지 않습니다.
An analogy may help. Stepwise regression when the candidate variables are indicator (dummy) variables representing mutually exclusive categories (as in ANOVA) corresponds exactly to choosing which groups to combine by finding out which groups are minimally different by -테스트. 원래 분산 분석을 그러나 마지막 붕괴 그룹은 where the resulting statistic does not have an distribution and the false positive probability will be out of control.