로지스틱 회귀 분석에서 변수의 중요성


11

아마도 백 번 전에 해결 된 문제를 다루고 있지만 대답을 어디서 찾을 수 있는지 잘 모르겠습니다.

로지스틱 회귀 분석을 사용할 때 많은 기능 을 고려하고 이진 범주 값 를 예측하려고하면 잘 예측하는 기능의 하위 집합을 선택하는 데 관심이 있습니다. y yx1,...,xnyy

올가미와 유사한 절차를 사용할 수 있습니까? (나는 선형 회귀에 사용되는 올가미 만 보았습니다.)

다른 피처의 중요성을 나타내는 적합 모형의 계수를보고 있습니까?

편집-답변 중 일부를 본 후의 설명 :

  1. 적합 계수의 크기를 언급 할 때 정규화 (평균 0 및 분산 1) 기능에 적합하다는 것을 의미합니다. 그렇지 않으면 @probabilityislogic이 지적했듯이 1000x는 x보다 덜 중요하게 보입니다.

  2. @Davide가 제공 한 최고의 k-subset을 찾는 데 관심이 없지만 서로 다른 기능의 중요성을 평가합니다. 예를 들어, 하나의 기능은 "나이"이고 다른 기능은 "나이> 30"일 수 있습니다. 점진적인 중요성은 적을 수 있지만 둘 다 중요 할 수 있습니다.

답변:


8

DWin의 답변은 답을 제공하지만 통찰력은 거의 없으므로 설명을 제공하는 것이 도움이 될 것이라고 생각했습니다.

클래스가 두 개인 경우 기본적으로 를 추정하려고합니다 . 이것은 당신이 필요한 전부이며 로지스틱 회귀 모형은 다음과 같이 가정합니다 :p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

기능 의 중요성에 의해 내가 생각하는 것은 가 어떻게 영향을 미치는지, 즉 입니다.jppxij

작은 변형 후에는

p=eβ0+β1Txi1+eβ0+β1Txi .

미분을 계산하면

pxij=βjeβ0+β1Txi

이것은 다른 모든 변수의 값에 따라 달라집니다. 그러나 계수의 부호가 원하는 방식으로 해석 될 수 있음을 알 수 있습니다. 음수이면이 기능은 확률 p를 감소시킵니다.

이제 추정 절차에서 모델이 정확하다고 가정하고 추정하려고 합니다. 정규화를 사용하면 이러한 추정치에 약간의 편견이 생깁니다. 능형 회귀 및 독립 변수의 경우 닫힌 양식 솔루션을 얻을 수 있습니다.β

βr^=β^β^+λ .

보시다시피 이것은 해석의 해석이 분리되도록 계수의 부호를 변경할 수 있습니다.


1
eq1 분모의 오타?
Fernando

7

마지막 질문에 대한 답은 평평합니다. 계수의 크기는 결코 중요한 척도가 아닙니다. 올가미는 로지스틱 회귀 분석에 사용할 수 있습니다. 당신은이 지역을보다 확실하게 연구해야합니다. 공부해야 할 방법은 "벌칙"방법과 관련된 방법입니다. 어딘가에 정의되어 있지만 일반적으로 사용되지 않는 용어 인 "그림자"예측 변수를 발견하는 탐지 방법을 찾고 있다면 예측 변수 공간 내에서 상호 작용 및 비선형 구조를 검사하는 방법을 찾아야합니다. 그 공간에 결과 연결. Frank Harrell의 텍스트 "Regression Modeling Strategies"에서 이러한 문제와 방법에 대해 약간의 논의가 있습니다.

이전 선택 전략은 유효한 결과를 제공하지 못합니다 (결과를 제공하지만). 100 개의 사건에 대해 20 개의 랜덤 예측 변수의 사례를 살펴보면 뒤로 선택 과정에서 선택 될 2 또는 3을 찾을 수 있습니다. 현실에서 역 선택의 유병률은 신중한 통계적 사고가 아니라 SAS 및 SPSS에서의 용이 한 가용성 및 해당 제품의 사용자 기반의 정교함이 없음을 반영합니다. R 사용자 기반은 메일 링리스트에 요청을 게시하는 이러한 방법 및 사용자에 액세스하기가 더 어려우므로 일반적으로 뒤로 (또는 앞으로) 선택 방법과 관련된 문제에 대해 조언을받습니다.


1
나는 내가해야한다는 것을 알고 있습니다-어디서부터 시작 해야하는지에 대한 조언을 크게 부탁드립니다.
Guy Adini

xn+1=1000x1xn+11000x1

위의 내 의견을 참조하십시오 (정규화 된 기능 사용). 감사.
Guy Adini

감사합니다. 나는 그것을 조사 할 것이다. 이 "예측 공간 내에서의 상호 작용 및 비선형 구조 검사"에 사용되는 몇 가지 일반적인 알고리즘의 이름을 지정할 수 있습니까?
Guy Adini

회귀 스플라인을 사용하여 비선형 성을 검색 할 수 있으며 스플라인 항을 "교차"할 수 있으므로 2D 예측 공간의 한 영역으로 제한된 효과를 식별 할 수 있습니다. 로컬 회귀 분석법을 사용할 수도 있습니다. R에서 가장 많이 사용되는 로컬 회귀 분석 방법은 아마도 'mgcv'패키지이지만 이전 'locfit'패키지는 여전히 사용 가능합니다.
DWin

-4

영어는 모국어가 아니기 때문에 문제가 무엇인지 이해하지 못했을 수도 있지만 최상의 모델을 찾아야 할 경우 모든 공변량을 가진 모델부터 시작하여 역방향 절차를 사용하고 결국 인터 네이션을 추가 할 수 있습니다. 그런 다음 잔차 _vs_predicted 값과 qq- 플롯 그래프를 모두보고 모델이 현상을 잘 설명하고 있는지 확인할 수 있습니다.


감사! 나는 당신이 제안하는 것이 가장 관련성이 높은 기능을 점차적으로 추가하는 것이라고 생각합니다. 이해하기는 어렵지만 기능 B보다 기능 A가 "얼마나 많은지"이해하는 데 도움이되지 않습니다. 예를 들어, 하나의 기능 x와 다른 기능 x + <작은 소음>이 있다고 가정합니다. 그러면 둘 다 실제로 유용한 기능이지만 하나는 다른 것에 의해 음영 처리됩니다. x + <noise>도 표시하는 방법이 중요하기를 원합니다.
Guy Adini

아니요, 후진 절차는 모든 공변량이 포함 된 모형으로 시작한 다음 공변량 (계수가 중요하지 않은)을 단계별로 제거합니다 (일반적으로 유의 한 계수 만있는 모형이있을 때까지). 같은 목표를 달성 할 수있는 더 정교한 방법이 있다고 생각하지만, 나는 단지 학사 학생입니다!
Davide
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.