가변 중요도 순위 (모든 종류의 다변량 모델의 맥락에서)와 관련하여 나는 다소 nihilist가되었습니다 .
종종 업무 수행 중에 다른 팀이 가변 중요도 순위를 생성하도록 지원하거나 내 업무에서 가변 중요도 순위를 생성하도록 요청받습니다. 이러한 요청에 따라 다음과 같은 질문을합니다.
이 변수 중요도 순위는 무엇입니까? 무엇으로부터 배우고 싶습니까? 어떤 결정을 사용하고 싶습니까?
내가받는 답변은 거의 항상 두 가지 범주 중 하나에 해당합니다.
- 응답을 예측하는 데 모델에서 다른 변수의 중요성을 알고 싶습니다.
- 중요도가 낮은 변수를 제거하여 기능 선택에 사용하고 싶습니다.
첫 번째 반응은 팽팽한 것입니다 (변수 중요도 순위를 원하기 때문에 변수 중요도 순위를 원합니다). 다변량 모델의 결과를 소비 할 때 이러한 순위가 심리적 요구를 충족한다고 가정해야합니다. 변수 "중요도"를 개별적으로 순위 화하면 문제의 모델의 다차원 적 특성을 암시 적으로 거부하는 것처럼 보이기 때문에이를 이해하기가 어렵습니다.
두 번째 응답은 기본적으로 비공식 버전의 뒤로 선택 으로 축소되며 , 그 결과 통계적 원인은 CrossValidated의 다른 부분에 잘 설명되어 있습니다.
또한 중요도 순위가 잘못 정의 된 특성으로 인해 어려움을 겪고 있습니다. 순위가 어떤 기본 개념을 측정해야하는지에 대해 거의 일치하지 않는 것 같습니다. 중요도 점수 또는 순위를 지정하는 방법에는 여러 가지가 있으며 일반적으로 다음과 같은 단점과 단점이 있습니다.
- 임의 포리스트 및 gbms의 중요도 순위에서와 같이 알고리즘에 따라 크게 달라질 수 있습니다.
- 그것들은 매우 높은 분산을 가질 수 있으며, 기본 데이터에 대한 섭동으로 급격히 변합니다.
- 입력 예측 변수의 상관 관계가 크게 저하 될 수 있습니다.
따라서, 모든 질문과 함께, 나의 질문은, 가변 중요도 순위의 통계적으로 유효한 용도는 무엇인가, 또는 그러한 욕구의 무익함에 대한 설득력있는 주장 (통계 학자 또는 평신도)은 무엇인가? 나는 일반적인 이론적 논증과 사례 연구 모두에 관심이 있는데, 그 중 어느 것이 더 효과적 일 수 있습니다.
glmnet
가능할 때 그러한 비공식 절차를 사용해야 합니까?