이것은 모델 선택이라는 통계 영역입니다. 이 분야에 대한 많은 연구가 이루어졌으며 명확하고 쉬운 대답은 없습니다.
및 있고 모델에 항을 포함시켜야하는지 알고 싶다고 가정합니다 . 이와 같은 상황에서는 더 복잡한 모델이 더 복잡한 모델에 중첩됩니다. 즉, 변수 및 ( 모델)은 변수 및 (복잡한 모델) 의 하위 집합입니다 . 모델 구축에는 다음 두 가지 주요 목표 중 하나 이상이 있습니다.X1,X2X3X23X1,X2X3X1,X2,X3X23
- 데이터 설명 : 당신이 이해하려고하는 방법 일부 변수 세트는 응답 변수에 영향을 미치거나 당신이 방법에 관심이 효과 하는 동안의 효과를 통제X1YX2,...Xp
- 예측 : 모형에 몇 개의 변수가 있는지에 관계없이 를 정확하게 예측하려고합니다.YY
목표가 1 번인 경우 가능성 비율 테스트 (LRT)를 권장합니다. LRT는 모델이 중첩되어 있고 "유사 모델보다 복잡한 모델에서 데이터가 상당히 많이 나오는가?"를 알고 싶을 때 사용됩니다. 이를 통해 데이터 간의 관계를 더 잘 설명하는 모델에 대한 통찰력을 얻을 수 있습니다.
목표가 2 번이면 데이터 크기에 따라 일종의 교차 검증 (CV) 기술 ( 폴드 CV, 일대일 이력서, 시험 훈련 CV)을 권장 합니다. 요약하면 이러한 방법은 데이터의 하위 집합에 대한 모델을 작성하고 나머지 데이터의 결과를 예측합니다. 나머지 데이터를 가장 잘 예측하는 모델을 선택하십시오.k