분류 작업에서 기능 선택이 중요한 이유는 무엇입니까?


11

기능 선택에 대해 배우고 있습니다. 모델 구축에 왜 이것이 중요하고 유용한 지 알 수 있습니다. 그러나지도 학습 (분류) 작업에 중점을 두겠습니다. 분류 작업에서 기능 선택이 중요한 이유는 무엇입니까?

피처 선택과지도 학습을위한 사용법에 관한 많은 문헌이 있지만, 이것은 당황합니다. 기능 선택은 버릴 기능을 식별하는 것입니다. 직관적으로, 일부 기능을 버리는 것은 자멸적인 것처럼 보입니다. 정보를 버리는 것입니다. 정보를 던지는 것이 도움이되지 않는 것 같습니다.

일부 기능을 제거해도 도움이 되더라도 일부 기능을 버리고 나머지를지도 학습 알고리즘에 제공하는 경우지도 학습 알고리즘이 처리하도록하는 대신 왜 직접 처리해야합니까? 일부 기능이 도움이되지 않는 경우 적절한지도 학습 알고리즘이 암시 적으로이를 감지하고 해당 기능을 사용하지 않는 모델을 학습해서는 안됩니까?

직관적으로 나는 기능 선택이 결코 도움이되지 않고 때로는 아프게 할 수있는 무의미한 운동이 될 것이라고 예상했을 것입니다. 그러나 그것이 널리 사용되고 사용된다는 사실은 내 직관이 잘못되었다고 의심합니다. 지도 학습을 수행 할 때 기능 선택이 유용하고 중요한 이유를 누구나 쉽게 이해할 수 있습니까? 머신 러닝 성능을 향상시키는 이유는 무엇입니까? 내가 사용하는 분류기에 의존합니까?

답변:


10

직감이 매우 정확합니다. 대부분의 상황에서 기능 선택은 세 가지 오해로 인한 간단한 설명을 원합니다.

  1. 분석가는 "선택된"기능 세트가 불안정하고, 비강 건하다는 것을 인식하지 못하고 다른 데이터 세트에서 수행 할 때 선택하는 프로세스가 상당히 다른 기능 세트를 초래할 것임을 인식하지 못합니다. 데이터에는 종종 "올바른"기능을 선택하는 데 필요한 정보 내용이 없습니다. 공선 성이있는 경우이 문제가 악화됩니다.
  2. 통제되지 않은 실험에서는 경로, 메커니즘 및 프로세스가 복잡합니다. 인간의 행동과 본성은 복잡하고 동정적이지 않습니다.
  3. 중요한 기능과 "중요한"기능에 대해 와의 관계를 알려주는 데이터를 요청하면 예측 정확도가 떨어 집니다. 일부 변수를 모두 사용하고 다른 변수에는 사용하지 않는 것 (즉, 축소 / 축소를 사용하는 것)보다 "각 변수를 조금씩 사용하는"것이 좋습니다.Y

이것을 연구하는 몇 가지 방법 :

  1. 올가미 , 탄성 그물 및 표준 2 차 페널티 (리지 회귀) 간의 예측 정확도를 더 많이 비교합니다.
  2. 임의 포리스트에서 부트 스트랩 변수 중요도 측정 및 안정성 확인
  3. 부분의 대열에 예를 들어 잠재적 기능의 대열에 계산 부트 스트랩 신뢰 구간, 협회의 시험 (또는 단 변량 스피어 같은 것들의 또는 써머 ' ) 이러한 신뢰 구간이 매우 넓은 것을 볼 작업의 어려움을 직접 알려줍니다. http://biostat.mc.vanderbilt.edu/rms에 링크 된 내 강의 노트 에는 OLS를 사용하는 예측 변수의 순위 순서 순위 예가 있습니다.χ2ρDxy

이 모든 것은 분류와보다 일반적이고 유용한 예측 개념에 모두 적용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.