변수 선택이 필요한 이유는 무엇입니까?


31

일반적인 데이터 기반 변수 선택 절차 (예 : 정방향, 역방향, 단계적, 모든 하위 집합)는 다음을 포함하여 바람직하지 않은 속성을 가진 모델을 생성하는 경향이 있습니다.

  1. 계수는 0에서 멀어졌습니다.
  2. 너무 작은 표준 오차와 너무 좁은 신뢰 구간
  3. 알려진 의미가없는 통계 및 p- 값을 테스트합니다.
  4. 지나치게 낙관적 인 모형 적합 추정치.
  5. 의미가없는 포함 된 용어 (예 : 하위 용어 제외)

그러나 변수 선택 절차는 계속됩니다. 변수 선택에 문제가 있다고해서 왜 이런 절차가 필요한가? 그들의 사용은 무엇입니까?

토론을 시작하기위한 제안들 ...

  • 해석 가능한 회귀 계수에 대한 욕구? (많은 IV가있는 모델에서 잘못 안내 되었습니까?)
  • 관련이없는 변수로 인한 분산을 제거합니까?
  • 독립 변수 중 불필요한 공분산 / 중복을 제거 하시겠습니까?
  • 모수 추정값 (전력 문제, 표본 크기) 수를 줄입니다.

다른 사람이 있습니까? 변수 선택 기법으로 해결되는 문제는 변수 선택 절차로 인해 발생하는 문제보다 다소 중요합니까? 언제 사용해야합니까? 언제 사용해서는 안됩니까?


내 의견으로는, 문제를 명확하게 논의하기 위해서는 먼저 좋은 방법으로 문제를 구체화 한 다음 적절한 수학적 형태로 문제를 명확하게 논의 할 수있는 틀을 가질 수 있도록 공식화해야합니다. 예를 들어 선형 회귀 모형에 대한 변수 선택 문제 먼저 모델을 수정하고 (i) 변수 선택의 장점 / 단점 (예 : 추정 또는 예측 개선 / 예측)을 연구하는 것이 합리적으로 보입니다. (ii) LS 추정치와 비교 한 변수 선택 절차의 장점은 무엇입니까?

답변:


17

불이익없이 변수를 선택하면 상황이 악화 될뿐입니다. 변수 선택은 "올바른"변수를 찾을 가능성이 거의 없으며, 남아있는 변수의 영향에 대한 과대 평가와 표준 오차의 과소 평가를 초래합니다. 일반적인 방법으로 수행 된 변수 선택이 "큰 p 작은 n"문제를 해결하는 데 도움이된다고 믿는 것은 실수입니다. 결론은 최종 모델이 모든면에서 오해의 소지가 있다는 것입니다. 이것은 역학 논문에서 읽은 놀라운 진술과 관련이 있습니다. "우리는 다변량 모델을 개발하기에 적절한 표본 크기가 없었기 때문에 2x2 테이블에 대해 가능한 모든 테스트를 수행했습니다."

데이터 세트를 사용하여 변수를 제거 할 때마다 Y를 사용하여 결정을 내리면 모든 통계량이 왜곡됩니다. 일반적인 변수 선택은 신기루입니다.

편집 : (폴드에서 숨겨진 아래에서 주석 복사)

L2L1L1L2Y


6
진행 방법에 대한 힌트를 제공하면이 답변이 향상 될 것이라고 생각합니다. 그 대답은 주장을 뒷받침하는 자료에 대한 언급없이 매우 광범위하고 결정적인 진술 (대개 내가 동의하는 것)을 만든다. 확실히 벌칙은 만병 통치약이 아니며, 그 길로 내려 가면 많은 선택을해야합니다.
추기경

3
자세한 내용은 위를 참조하십시오. 문제를 언급하는 가장 간단한 방법은 변수가 "선택"되는 주된 이유는 그 효과가 과대 평가 되었기 때문입니다.
Frank Harrell

2
L2L1L2

2
L2L2L1pn

2
L2

14

우선, 언급 한 단점은 기능 선택 이 잘못 수행 된 결과 , 즉 과적 합, 미완성 또는 오버 슈트입니다.

eYYYeY

모든 관련 수준은 주어진 프로세스를 실제로 주도하는 요소에 대한 통찰력을 제공하므로 설명 가치가 있습니다. 최소한의 최적 수준 (설계 상)은 비 정합 모델로 가능한 한 정리되지 않은 데이터를 처리합니다.

실제 FS는 이러한 목표 중 하나 (보통 후자)를 달성하고자합니다.


4
데이터를 사용하지 않고 변수를 제거하는 것을 언급한다고 가정합니다. 이 작업을 위해 현재 데이터 세트를 사용할 수 없습니다. 이것은 신뢰할 수 없으며 통계적 추론을 왜곡합니다.
Frank Harrell

내가 썼 듯이, 이것은 문제의 이론적 기초 일뿐입니다 (베이지안 그물에서 나옴). 이를 실현하는 정확한 방법은 명백히 불가능하며, 통계 모델링이 RFE 및 이와 유사한 것들을 무의식적으로 사용함으로써 많은 어려움을 겪었음에도 불구하고 머신 러닝에는 희망이없는 휴리스틱 알고리즘이 있습니다 (예 : 안정적인 선택 및 모델 만들기) 공정한 시험에 적합하지 않은 것으로 입증 됨).

RFE 란 ??????
kjetil b halvorsen

@kjetilbhalvorsen 재귀 기능 제거

흥미로운 답변을위한 @mbq Thx! 참고 문헌 (도서, 논문 등)을 제공 할 수 있습니까? 답장을 보내주세요!
Kare

10

변수 선택은 대부분의 모델이 많은 관련없는 변수를 잘 처리하지 않기 때문에 필수적입니다. 이러한 변수는 모델에 노이즈 만 발생 시키거나 더 심하게 만들면 과도하게 맞습니다. 이러한 변수를 분석에서 제외하는 것이 좋습니다.

또한, 모든 분석에 존재하는 모든 변수를 포함시킬 수는 없습니다. 왜냐하면 그 안에는 무한한 수가 있기 때문입니다. 어떤 시점에서 선을 그려야하며 엄격한 방식으로 선을 그리는 것이 좋습니다. 따라서 변수 선택에 대한 모든 토론이 있습니다.

변수 선택과 관련된 대부분의 문제는 교차 유효성 검사 또는 기본 제공 처벌 및 기능 선택 (예 : 선형 모델의 탄성 그물)이있는 모델을 사용하여 처리 할 수 ​​있습니다.

과적 합을 유발하는 여러 변수와 관련된 경험적 결과에 관심이있는 경우 Kaggle 에서 과적 합 금지 경쟁 결과를 확인하십시오 .


1
첫 번째 단락에는 문제에 대한 오해가 많이 있다고 생각합니다. 변수 선택은 어떤 방식 으로든 이러한 문제를 해결하는 데 도움이되지 않으며 단지 숨 깁니다. 변수 선택은 엄청난 과적 합 문제를 야기하지만, 나중에 언급했듯이 변수 선택으로 인한 피해에 대해 정직하게 처벌 할 수있는 방법이 있습니다.
Frank Harrell

3
@ Frank Harrell : 모델에서 제외 할 변수를 어떻게 결정합니까?
Zach

11
(1) 데이터 세트를보기 전에 주제 지식을 사용하십시오. (2) Y에 맹목적인 중복 분석 / 데이터 감소를 사용하십시오. (3) 기능 선택으로 인해 발생하는 거대한 다중 비교 문제에 적절하게 불이익을주는 방법을 사용하십시오 (이 페이지의 다른 부분 참조).
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.