유의성 테스트 또는 교차 검증?


20

상관 변수를 선택하는 두 가지 일반적인 방법은 유의성 테스트와 교차 검증입니다. 각각 어떤 문제를 해결하려고하는데 언제 서로 선호합니까?

답변:


22

먼저, 변수 벡터 β = ( β 0 )를 사용 하여 여러 변수 x 1 , , x p (상관 여부에 관계없이)에 대해 반응 변수 회귀시키는 다중 선형 회귀의 맥락에서 질문을 명확하게하고 의문을 제기하십시오 . , β 1 , , β p ) 및 회귀 함수 f ( x 1 , , x p ) = β 0 + β 1 x 1 +yx1,,xpβ=(β0,β1,,βp)
주어진 관측 반응 변수의 평균의 모델이 될 수있는 X 1 , ... , X의 P .

f(x1,,xp)=β0+β1x1++βpxp,
x1,,xp

문제는의 부분 집합을 선택하는 방법은 '특히 비 제로와, 비교 될 s의 중요성 테스트 에 비해 교차 검증 .βi

용어에 대해 명확하게 이해하기 위해 유의성 테스트 는 일반적인 개념으로, 상황에 따라 다르게 수행됩니다. 예를 들어 테스트 통계의 선택에 따라 다릅니다. 교차 검증 은 실제로 중요한 일반 개념이며 손실 함수의 선택에 따라 예상되는 일반화 오류 를 추정하기위한 알고리즘입니다 .

것으로 일반화의 오류가 공식적으로 정의 작은 기술이지만, 즉 그것은 인 독립 데이터 세트 예측에 이용하는 경우 피팅 모델의 예상 손실을 기대 추정뿐만 아니라 독립형 데이터에 사용 된 데이터 위에, 예측에 사용되는 세트.

β1

  • β1=0pβ1=0
  • β1=0β1=0β10과 다를 수 있으며 두 개의 추정 오차를 비교할 수 있습니다. 가장 작은 것이 우리가 선택한 모델에 해당합니다.

β10

β1β1

pp

ppβ1β1


17

유의성 검정과 단계적 절차를 사용하여 모형 선택을 수행하면 실제로 예측할 수없는 예측 변수가있는 매우 강력한 모형이 있다고 믿을 수 있습니다. 우연히 강한 상관 관계가 생길 수 있으며 다른 불필요한 예측 변수를 제거하면 이러한 상관 관계가 향상 될 수 있습니다.

물론 선택 절차는 결과와 가장 밀접한 상관 관계가있는 변수 만 유지하며, 단계적 절차가 진행됨에 따라 제 1 종 오류가 발생할 확률은 생각보다 커집니다. 이는 표준 오차 (따라서 p- 값)가 변수가 모델에 무작위로 포함되도록 선택되지 않았고 해당 가설을 선택하기 위해 다중 가설 테스트가 수행되었다는 사실을 고려하여 조정되지 않았기 때문입니다.

데이비드 프리드먼 (David Freedman)은 " 심사 회귀 방정식에 관한 메모 "라는이 요점을 보여주는 귀여운 논문을 가지고 있습니다. 초록 :

R2R2

앞에서 언급했듯이이 문제에 대한 한 가지 가능한 해결책은 다양한 교차 검증을 사용하는 것입니다. 경제 모델 (연구 분야)이 좋지 않거나 내 모델을 믿어야하는 통계적 이유가없는 경우 적절한 모델을 선택하고 추론을 수행하는 데 선호되는 방법입니다.

다른 응답자는 AIC 또는 BIC를 사용하는 단계별 절차가 교차 검증과 비대칭 적으로 동일하다고 언급 할 수 있습니다. 그러나 이것은 예측 변수의 수에 대한 관측치의 수가 커질 때만 작동합니다. 관측치 수에 비해 많은 변수가있는 상황에서 (Freedman은 10 개 이하의 관측 당 1 개의 변수를 말합니다), 이러한 방식으로 선택하면 위에서 설명한 열악한 속성이 나타날 수 있습니다.

강력한 컴퓨터 시대에는 단계별 선택보다 모델 선택 절차로 교차 유효성 검사를 사용하지 않을 이유가 없습니다.


AIC 또는 BIC를 사용하는 단계별 절차에 대한 참조 를 교차 검증과 동일하게 제공 할 수 있습니까? 교차 검증과 AIC / BIC의 동등성에 대해 읽었지만 단계적 설정은 아닙니다.
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.