단계적 선택을 수행 한 후 p- 값이 잘못된 이유는 무엇입니까?

예를 들어 선형 회귀 모델을 생각해 봅시다. 데이터 마이닝에서 AIC 기준을 기반으로 단계별 선택을 수행 한 후 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것이 잘못되었다고 들었습니다. 모델에 남아있는 모든 변수를 0과 다른 실제 회귀 계수로 간주해야한다고 들었습니다. 아무도 왜 나에게 설명 할 수 있습니까? 고맙습니다.

— 존 엠
소스

자세한 내용은 다음과 같습니다. 거기에 인용 된 참고 문헌들도 도움이됩니다.

— S. Kolassa-복원 모니카

이론적 ecology.wordpress.com/2018/05/03/… 에서는 AIC 선택 후 유형 I 인플레이션을 보여주는 일부 R 코드를 보여줍니다. 단계적이든 전역 적이든 중요하지 않은 점은 모델 선택이 기본적으로 다중 테스트라는 점입니다.

— Florian Hartig

AIC 기준에 따라 단계적 선택을 수행 한 후, 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것은 잘못된 것입니다.

실제로 p- 값은 귀무 가설이 참일 때 적어도 자신이 가지고있는 것보다 극한의 검정 통계량을 볼 확률을 나타냅니다. 경우 $H_0$ 에 해당하고, P 값은 균일 한 분포를 가져야한다.

그러나 단계적 선택 후 (또는 실제로 모형 선택에 대한 다양한 다른 접근 방식 이후) 모형에 남아있는 항의 p- 값에는 귀무 가설이 참이라는 사실을 알고 있더라도 해당 특성이 없습니다.

이는 사용하는 정확한 기준에 따라 p- 값이 작거나 작은 변수를 선택하기 때문에 발생합니다. 이는 모델에 남아있는 변수의 p- 값이 단일 모델에 적합했을 때보 다 훨씬 작다는 것을 의미합니다. 모델 클래스에 실제 모델이 포함되어 있거나 모델 클래스가 실제 모델과 거의 비슷할 정도로 유연 할 경우 선택은 실제 모델보다 훨씬 더 적합한 모델을 선택합니다.

[또한 기본적으로 동일한 이유로 남아있는 계수는 0에서 멀어지고 표준 오차는 낮게 바이어스됩니다. 이는 신뢰 구간과 예측에도 영향을 미칩니다. 예를 들어 예측 범위가 너무 좁을 것입니다.]

이러한 효과를 확인하기 위해 일부 계수가 0이고 일부 계수가 아닌 경우 다중 회귀 분석을 수행 할 수 있습니다. 단계별 절차를 수행 한 다음 계수가 0 인 변수가 포함 된 모형의 경우 p- 값을 확인하십시오.

(동일한 시뮬레이션에서 계수의 추정치 및 표준 편차를보고 0이 아닌 계수에 해당하는 계수도 영향을 받는다는 것을 알 수 있습니다.)

즉, 일반적인 p- 값을 의미있는 것으로 간주하는 것은 적절하지 않습니다.

모델에 남아있는 모든 변수를 대신 중요하게 고려해야한다고 들었습니다.

단계별로 모델의 모든 값을 '유의 한 것으로'간주해야하는지에 대해, 그것이 그것을 보는 데 유용한 방법인지 확실하지 않습니다. "의미"란 무엇을 의미 하는가?

다음 stepAIC은 n = 100이고 10 개의 후보 변수 (둘 중 하나는 응답과 관련이 없음) 인 1000 개의 시뮬레이션 된 샘플에서 기본 설정으로 R을 실행 한 결과입니다 . 각 경우에 모형에 남아있는 항의 수를 세었습니다.

시간의 15.5 %만이 올바른 모델을 선택했습니다. 나머지 시간에는 모형에 0과 다르지 않은 항이 포함되었습니다. 후보 변수 세트에 0 계수 변수가 실제로 가능한 경우 모델에서 실제 계수가 0 인 여러 항이있을 수 있습니다. 결과적으로 모든 것을 0이 아닌 것으로 간주하는 것이 바람직하지 않습니다.

— Glen_b-복귀 모니카
소스

문장으로 내가 의미 "나는 하나가 큰 대신으로 모델에 남아있는 모든 변수를 고려해야 들었다": "나는 하나가 다른 대신 양식 제로 진정한 회귀 계수가 같은 모델에 남아있는 모든 변수를 고려해야 들었다"

— 존 M

괜찮아; 그것에 대해 말하는 시뮬레이션 결과를 추가했습니다.

— Glen_b-복지 모니카

+1 이번 주말에 모델 선택 방법에 대한 수업을 준비하기 위해 동일한 시뮬레이션을 수행했습니다. 탐색하면서 동일한 패턴의 결과를 얻었습니다.

k = 3

$k=3$ 에

39

$39$ 변수와 사용

10 k

$10k$ 관찰. 다음 단계는 Bonferroni 수정이 무엇을하는지 확인하는 것입니다.

— whuber

실제로 @whuber는 Bonferroni가 (문제의 다양한 측면에서) 어떤 영향을 미치는지 위의 시뮬레이션을 완료하는 데 즉각적인 성향을 보였지만 사람들이 실제로 단계별로 수행하는 경향이 아니기 때문에 다루지 않았습니다. 여기 요 모델 선택 방법에 대해 이야기하는 것을 듣고 매우 기쁩니다. 나는 꽤 많이 배울 것으로 기대합니다.

— Glen_b-복지 주 모니카

@Glen_b : (답변에서 인용) 이것은 모델에 남은 변수의 p- 값이 "단일 모델이 적합하더라도 단일 모델에 적합했을 때보 다 훨씬 작다는 것을 의미합니다. "실제 모델이 null인지 여부에 관계없이 데이터를 생성 한 모델" 강조 표시된 부분을 조금 설명해 주시겠습니까? 데이터 생성 프로세스와 동일한 사양을 가진 모델에서 실제 p- 값이 더 작을 수있는 방법은 무엇입니까 (참 모델)?

— shani

An analogy may help. Stepwise regression when the candidate variables are indicator (dummy) variables representing mutually exclusive categories (as in ANOVA) corresponds exactly to choosing which groups to combine by finding out which groups are minimally different by $t$ -테스트. 원래 분산 분석을 $F_{p-1, n-p-1}$ 그러나 마지막 붕괴 그룹은 $F_{q-1, n-q-1}$ where $q < p$ the resulting statistic does not have an $F$ distribution and the false positive probability will be out of control.

— Frank Harrell
소스