일반적인 데이터 기반 변수 선택 절차 (예 : 정방향, 역방향, 단계적, 모든 하위 집합)는 다음을 포함하여 바람직하지 않은 속성을 가진 모델을 생성하는 경향이 있습니다.
- 계수는 0에서 멀어졌습니다.
- 너무 작은 표준 오차와 너무 좁은 신뢰 구간
- 알려진 의미가없는 통계 및 p- 값을 테스트합니다.
- 지나치게 낙관적 인 모형 적합 추정치.
- 의미가없는 포함 된 용어 (예 : 하위 용어 제외)
그러나 변수 선택 절차는 계속됩니다. 변수 선택에 문제가 있다고해서 왜 이런 절차가 필요한가? 그들의 사용은 무엇입니까?
토론을 시작하기위한 제안들 ...
- 해석 가능한 회귀 계수에 대한 욕구? (많은 IV가있는 모델에서 잘못 안내 되었습니까?)
- 관련이없는 변수로 인한 분산을 제거합니까?
- 독립 변수 중 불필요한 공분산 / 중복을 제거 하시겠습니까?
- 모수 추정값 (전력 문제, 표본 크기) 수를 줄입니다.
다른 사람이 있습니까? 변수 선택 기법으로 해결되는 문제는 변수 선택 절차로 인해 발생하는 문제보다 다소 중요합니까? 언제 사용해야합니까? 언제 사용해서는 안됩니까?