가변 중요도 순위는 무엇에 유용합니까?


25

가변 중요도 순위 (모든 종류의 다변량 모델의 ​​맥락에서)와 관련하여 나는 다소 nihilist가되었습니다 .

종종 업무 수행 중에 다른 팀이 가변 중요도 순위를 생성하도록 지원하거나 내 업무에서 가변 중요도 순위를 생성하도록 요청받습니다. 이러한 요청에 따라 다음과 같은 질문을합니다.

이 변수 중요도 순위는 무엇입니까? 무엇으로부터 배우고 싶습니까? 어떤 결정을 사용하고 싶습니까?

내가받는 답변은 거의 항상 두 가지 범주 중 하나에 해당합니다.

  • 응답을 예측하는 데 모델에서 다른 변수의 중요성을 알고 싶습니다.
  • 중요도가 낮은 변수를 제거하여 기능 선택에 사용하고 싶습니다.

첫 번째 반응은 팽팽한 것입니다 (변수 중요도 순위를 원하기 때문에 변수 중요도 순위를 원합니다). 다변량 모델의 ​​결과를 소비 할 때 이러한 순위가 심리적 요구를 충족한다고 가정해야합니다. 변수 "중요도"를 개별적으로 순위 화하면 문제의 모델의 다차원 적 특성을 암시 적으로 거부하는 것처럼 보이기 때문에이를 이해하기가 어렵습니다.

두 번째 응답은 기본적으로 비공식 버전의 뒤로 선택 으로 축소되며 , 그 결과 통계적 원인은 CrossValidated의 다른 부분에 잘 설명되어 있습니다.

또한 중요도 순위가 잘못 정의 된 특성으로 인해 어려움을 겪고 있습니다. 순위가 어떤 기본 개념을 측정해야하는지에 대해 거의 일치하지 않는 것 같습니다. 중요도 점수 또는 순위를 지정하는 방법에는 여러 가지가 있으며 일반적으로 다음과 같은 단점과 단점이 있습니다.

  • 임의 포리스트 및 gbms의 중요도 순위에서와 같이 알고리즘에 따라 크게 달라질 수 있습니다.
  • 그것들은 매우 높은 분산을 가질 수 있으며, 기본 데이터에 대한 섭동으로 급격히 변합니다.
  • 입력 예측 변수의 상관 관계가 크게 저하 될 수 있습니다.

따라서, 모든 질문과 함께, 나의 질문은, 가변 중요도 순위의 통계적으로 유효한 용도는 무엇인가, 또는 그러한 욕구의 무익함에 대한 설득력있는 주장 (통계 학자 또는 평신도)은 무엇인가? 나는 일반적인 이론적 논증과 사례 연구 모두에 관심이 있는데, 그 중 어느 것이 더 효과적 일 수 있습니다.


1
약한 예측 변수를 걸러 내기 위해 (일부 합리적인 절차에서) 가변적 중요성을 사용하는 것은 끔찍한 생각처럼 보이지 않습니다. 왜 이것이 나쁘다고 생각하는지 분명히 알 수 있습니까?
dsaxton

3
나는 일반적으로 많은 통계적 프로세스가 "중요한"예측 변수에 의해 지배되지 않고 많은 작은 효과의 누적이라고 생각한다고 생각합니다. 예를 들어, 능선 회귀의 힘은이 구조를 명시 적으로 인정함으로써 설명 할 수 있습니다. 다른 방법으로, "약한 예측 자"의 개념에서 우리가 믿어야하는 이유는 무엇이며, 왜 필터링해야 하는가? 그리고 왜 glmnet가능할 때 그러한 비공식 절차를 사용해야 합니까?
Matthew Drury

2
우리가 전문가가 아닌 모든 분야에서 걱정해야 할 것이 무엇인지 알고 싶습니다! 많은 비즈니스 및 관리 서적은 중요한 문제를 식별하고 그 문제에 집중한다는 사실을 오랫동안 설명하는 것 같습니다 (실제로). 나는 여기에서 잘못된 의사 소통이 보통 통계적이지 않은 사람들로부터 시작한다고 생각한다. 중요도를 정량화하는 방법이 있고 그것을하는 방법을 아는 것이 통계적 사람들의 일이라고 생각하며 얼마나 어려운지 걱정하지 말라. 덜 일반적인 방법을 모르겠지만 여기서 논의되는 내용 중 일부는 귀하의 질문에서 핵심 요점을 놓친 것 같습니다.
Nick Cox

답변:


8

나는 이 질문이 제기하는 것처럼 가변적 중요성은 미끄러운 개념 이라고 주장했다 . @DexGroves가 지적한 것처럼 인과성 측면에서 변수 중요성 결과를 해석하려는 사람들의 비현실적인 희망과 귀하의 질문에 대한 답의 첫 번째 유형의 반응은 거의 정교 할 필요가 없습니다.

그러나 후진 선택을 사용하는 사람들에게 공평하게 Frank Harrell조차도 모델링 전략의 일부로 허용합니다. 그의 회귀 모델링 전략 , 2 판 97 페이지에서 (유사한 내용은 관련 강의 노트의 131 페이지에 있음 ) :

  1. parsimony가 정확도보다 중요한 경우에는 역방향으로 스텝 다운 변수 선택을 제한하십시오.

그러나, 역 선택의 이러한 제한된 잠재적 사용은 최종 모델 이전의 마지막 단계 인 단계 13이다 (단계 14). 중요한 첫 단계 후에 잘 나온다.

  1. 예측 변수 값에 대한 광범위한 분포로 최대한 정확한 관련 데이터를 수집하십시오 ...
  2. 관련 후보 예측 변수를 지정하고 가능한 상호 작용을 이끌어내는 좋은 가설을 세웁니다.

내 경험상 사람들은 종종 2 단계를 건너 뛰고 일부 자동화 된 절차가 주제 관련 지식의 지능적인 적용을 대체하게합니다. 이것은 가변적 중요성에 중점을 둔 결과를 가져올 수 있습니다.

Harrell의 14 단계 전체 모델 다음에 마지막 단계와 함께 5 단계의 추가 검증 및 조정 단계가 이어집니다.

  1. 원하는 정확도로 근사하여 전체 모델에 대한 단순화를 개발하십시오.

다른 답변에서 알 수 있듯이, 모델링 결과의 실제 적용에 들어가는 실행 가능성, 비용 및 단순성 문제가 있습니다. 예를 들어, 예후를 개선하지만 검사 당 $ 100,000의 비용을 지불하는 새로운 암 바이오 마커를 개발하는 경우, 보험 회사 나 정부가 그 검사가 비용이 많이 들지 않는 한 검사 비용을 지불하도록 설득하기가 어려울 수 있습니다. 따라서 누군가가 "가장 중요한"변수에 초점을 맞추거나 정확한 모델을 다소 덜 정확하지만 구현하기 쉽고 비용이 적게 드는 모델로 단순화하려는 것은 부당한 일이 아닙니다.

그러나이 변수 선택과 모델 단순화는 특정 목적을위한 것이 어야하며 , 이것이 어려움이 발생한 곳이라고 생각합니다. 이 문제는 정확하게 분류 된 사례의 비율만을 기준으로 분류 체계를 평가하는 것과 유사합니다. 다른 분류 오류가 다른 비용을 가질 수있는 것처럼, 다른 모델 단순화 체계는 원하는 이익과 균형을 이루는 다른 비용을 가질 수 있습니다.

따라서 분석가로서 중점을 두어야 할 문제는 통계적 타당성 자체의 추상적 인 개념에 대해 너무 걱정하지 않고 통계적 모델링 절차를 통해 이러한 비용과 이점을 추정하고 설명하는 능력이라고 생각합니다. 예를 들어, 위에 링크 된 Harrell 클래스 노트의 157-8 페이지에는 부트 스트랩을 사용하여 예측 변수의 순위를 최소 제곱으로 표시하는 예가 있습니다. LASSO에 의해 선택된 변수 세트에 대해 유사한 결과를 찾을 수 있습니다.

변수 선택에서 해당 유형의 변동성이 모델의 특정 실제 적용에 방해가되지 않으면 괜찮습니다. 임무는 단순화로 이어지는 문제의 유형과 양을 추정하는 것입니다.


2
이것은 @ EdM에 대한 훌륭한 답변이며 문제에 관해 내가 개발 한 의견과 상당히 일치합니다. 특히 1) 받아 들일 수없는 예측 변수 (도덕적, 규제 적 또는 사업상의 이유로) 모델링 하기 전에 선별해야한다는 점 , 2) 최종 모델 단순화는 구체적이고 선험적으로 정의 된 목적을위한 것이어야한다는 두 가지 점이 특히 좋습니다 . 이것들은 본질적으로 비즈니스 파트너에게 질문으로 긴장을 풀고 자하는 점입니다.
Matthew Drury

또한 최종 선택 절차에서 고유 한 차이를 파트너에게 설명하는 것이 중요하다는 최종 요점에 동의합니다. LASSO의 맥락에서, 나는 부트 스트랩을 사용하여 각 예측 변수에 대해 과 추정치의 조건부 분산을 추정하는데 0이 아닌 것으로 가정했습니다. 이것에 대해 어떻게 생각하십니까?이 차이를 요약하는 더 적절한 방법이 있습니까? 아르 자형(β0)
Matthew Drury

그럼에도 불구하고, 중요도 순위가 파악하려는 기본 개념이 있는지, 불명확 한 통계적 문제에 대한 임시 공격인지에 대해서는 여전히 의문입니다.
Matthew Drury

1
@MatthewDrury에서 Frank Harrell 각 변수가 설명하는 로그 우도 비율에 따라 "가변 중요성"을 평가 하는 하나의 원칙적인 방법을 제공 합니다. 그것은 덜 정교한 개인이 어구로 의미하는 것이 아닙니다. 당신처럼, 나는 LASSO가 여러 부트 스트랩 샘플 중에서 각 예측 변수를 선택하는 시간의 일부를 변수 선택의 변화를 설명하는 가장 좋은 방법으로 사용했습니다. 그것은 주로 LASSO에서 벗어나 중간 규모의 문제에 대한 능선 회귀로 나아갔습니다.
EdM

8

이것은 완전히 일화 적이지만 GBM에서 실수 또는 약점을 식별하는 데 유용한 변수 중요성을 발견했습니다.

변수 중요도는 다른 방법으로는 얻기 어려운 모델의 거대한 단면 개요를 제공합니다. 목록에서 더 높은 변수는 더 많은 활동을보고 있습니다 (더 중요한지 여부는 또 다른 질문입니다). 종종 예측이 좋지 않은 예측 변수 (예 : 미래 지향적이거나 카디널리티가 높은 요소)가 맨 위로 쏠 수 있습니다.

직관 변수 중요성과 GBM 변수 중요성 사이에 큰 불일치가있는 경우 일반적으로 얻을 수있는 귀중한 지식이나 실수가 있습니다.

"왜 나에게 이것을 요청 하는가?"에 세 번째 답변을 추가하겠습니다. "응답에 대한 원인이 무엇인지 이해하고 싶기 때문"입니다. 엡.


4

가변 중요도 순위는 프로세스, 프로세스에 대해 잠재적으로 많은 수의 입력을 우선시해야 할 때마다 적용된 비즈니스 세계에서 결정적인 역할을합니다. 이 정보는 변수가 활용 가능하고 고정적이거나 구조적 요인이 조작에 영향을받지 않는 경우 문제를 공격하기위한 집중된 전략 측면에서 프로세스 비용 절감과 같이 가장 중요하지 않은 것부터 내려갑니다. 하루가 끝나면 A / B 테스트를해야합니다.

그러나 요컨대, Matt, 서수 순위와 마찬가지로 변수 간의 약간의 뉘앙스 또는 차이는 모호하거나 모호 해져 유용성을 떨어 뜨릴 수 있습니다.


많은 비즈니스 사례에서 변수 순위의 유용성에 전적으로 동의합니다. 그러나 여기서 '다른 알고리즘은 다른 순위를 부여한다'는 우려는 여전히 남아있다. 그 문제를 해결할 제안이 있습니까? 또한 내 질문 here stats.stackexchange.com/q/251248/71287 및 그 아래의 의견을 참조 하십시오 .
Aliweb

3
@aliweb 차이 의 문제 는 하나의 고정 된 단일 솔루션이 없습니다. 이 지점은 글로벌 순위가 실제로 전체적으로 지역적이고 일시적인 것으로 드러난 계층과 계층 사이의 구별만큼 미묘합니다. 상대 변수 중요성에 관한 문헌에 대한 최고의 리뷰는 아마도 Ulrike Groemping에 속할 것입니다. 또한 그녀의 R 모듈과 방법 인 RELAMPO는 존재하는 상대적인 중요도를 평가하기위한 엄격한 접근 방식입니다.
Mike Hunter

3

나는 이론적 인 관점에서 당신에게 완전히 동의합니다. 그러나 실제적인 관점에서 변수의 중요성은 매우 유용합니다.

보험 회사가 고객의 위험을 정량화하는 설문지의 질문 수를 줄이고 자하는 사례를 예로 들어 보겠습니다. 설문이 복잡할수록 고객이 제품을 구매할 가능성이 줄어 듭니다. 따라서 위험 정량화 수준을 유지할 때 덜 유용한 질문을 줄이고 자합니다. 솔루션은 종종 질문에서 삭제 될 질문을 결정하기 위해 가변적 중요성을 사용합니다 (그리고 잠재 고객의 위험 프로파일에 대해 "더 많거나 적은"동일한 예측을 가짐).


많은 비즈니스 사례에서 변수 순위의 유용성에 전적으로 동의합니다. 그러나 여기서 '다른 알고리즘은 다른 순위를 부여한다'는 우려는 여전히 남아있다. 그 문제를 해결할 제안이 있습니까? 또한 내 질문 here stats.stackexchange.com/q/251248/71287 및 그 아래의 의견을 참조 하십시오 .
Aliweb

@aliweb : Matthew가 이미 귀하의 질문에 대한 탁월한 답변을 제공했다고 생각합니다.
Metariat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.