로지스틱 회귀 분석의 순위 기능


10

로지스틱 회귀를 사용했습니다. 6 가지 기능이 있는데이 분류기의 다른 기능보다 결과에 더 많은 영향을 미치는 중요한 기능을 알고 싶습니다. Information Gain을 사용했지만 사용 된 분류 기준에 의존하지 않는 것 같습니다. 로지스틱 회귀와 같은 특정 분류 기준에 따라 중요도에 따라 기능의 순위를 매기는 방법이 있습니까? 도움을 주시면 감사하겠습니다.


3
로지스틱 회귀는 분류자가 아닙니다 . 로지스틱 회귀가 직접 확률 추정 모델임을 반영하여 질문을 다시 작성하십시오.
Frank Harrell

1
FrankHarrell이 제기 한 점을 제외하고 추정 계수 의 을 보았 p습니까? 기능을 평가하는 가장 좋은 방법은 아니지만 시작점을 제공 할 수 있습니다.
usεr11852

9
물론 로지스틱 회귀 분석은 확률을 추정하고 물건을 명시 적으로 분류하는 것이 아니라 누가 신경 쓰는가? 목적은 종종 어떤 클래스가 가장 가능성이 높은지를 결정하는 것이며, 사용하는 클래스라면 분류기를 호출하는 데 아무런 문제가 없습니다.
dsaxton

답변:


5

나는 당신이 찾고있는 대답이 Boruta 알고리즘 일 것이라고 생각합니다 . 이것은 "모든 관련성"의미에서 기능의 중요성을 직접 측정하고 R 패키지로 구현되는 래퍼 방법으로, 기능 이 음모의 중요성이 y 축에 있고 y 축과 비교 되는 위치 와 같은 멋진 플롯을 생성 합니다. 여기에 파란색으로 표시되어 있습니다. 이 블로그 게시물 은 접근 방식을 설명하며 매우 명확한 소개로 읽을 것을 권장합니다.


좋은 제안 (+1). 나는이 응용 프로그램에 약간의 과잉이지만 여전히 좋은 추가라고 생각합니다. 나는 확실히 그것을 잘 할 것이라는 점을 인식 상황. 다른 분류 알고리즘과 비교 한 비교 검토 연구에 대해 알고 있습니까? p>>n
usεr11852

아뇨. 나는 지난 주 정도에 나 자신을 만났다.
babelproofreader

흠 ... 좋아, Boruta는 매우 유망한 것처럼 보이지만, 나는 새로운 알고리즘에 대해 더 큰 연구의 일부로 볼 때까지 그리고 그들이 성공하지 못하는 사례를 볼 때까지 항상 무료 회의 알고리즘을 사용합니다 ( 무료 점심 정리 없음 ).
usεr11852

흥미로운 아이디어이지만 로지스틱 회귀와 관련이 없습니다.
Frank Harrell

"Boruta는 기능 순위 방법이 아닌 기능 선택 방법입니다" 패키지 홈페이지 의 FAQ
steadyfish를

3

회귀 모형의 중요도에 따라 변수 순위를 매기는 방법을 이해하기 시작하려면 선형 회귀부터 시작할 수 있습니다. 선형 회귀 모델에서 변수의 중요도를 평가하는 일반적인 방법은 를 각 변수에 기여한 기여도 로 분해하는 것 입니다. 그러나 변수의 상관 관계로 인해 선형 회귀 분석에서 변수의 중요성은 간단하지 않습니다. PMD 방법을 설명하는 문서를 참조하십시오 (Feldman, 2005) [ 3 ]. 또 다른 대중적인 접근 방식은 주문에 대한 평균화입니다 (LMG, 1980) [ 2 ].R2

R2

로지스틱 회귀 모델에서 기능 중요도를 평가하는 일반적인 방법 목록은 다음과 같습니다.

  1. R2
  2. 적절성 : 각 예측 변수가 개별적으로 설명 할 수있는 전체 모형 로그 우도의 비율
  3. 일치 성 : 양성 반응 변수와 음성 반응 변수를 구별 할 수있는 모델의 능력을 나타냅니다. 각 예측 변수에 대해 별도의 모델이 구성되며 중요도 점수는 해당 예측 변수 만 기반으로하는 참 양성의 예측 확률입니다.
  4. 정보 값 : 정보 값은 예측 변수에서 얻은 결과에 대한 정보의 양을 정량화합니다. 다른 예측 변수를 고려하지 않고 각 예측 변수의 분석을 기반으로합니다.

참고 문헌 :

  1. 로지스틱 회귀 분석에서 설명 변수의 상대적 중요성 측정
  2. R에서 선형 회귀 분석기의 상대적 중요성
  3. 상대 중요성 및 가치, Barry Feldman (PMD 방법)

0

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)

xx

1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

λw

이게 도움이 되길 바란다. 추가 질문이 있는지 물어보십시오.


4
LR은 분류 체계 가 아닙니다 . 어떤 분류의 사용은 유틸리티 / 비용 함수를 정의 후 postestimation 단계로 제공됩니다. 또한 OP는 처벌 된 최대 가능성 추정에 대해 묻지 않았습니다. 회귀 분석에서 변수의 상대적 중요성에 대한 증거를 제공하기 위해 부트 스트랩을 사용하여 각 예측 변수가 제공하는 추가 예측 정보의 등급에 대한 신뢰 한계를 얻는 것이 매우 쉽습니다. 온라인 메모 및 R 코드가 biostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell

4
하렐 교수님 우리는 두 가지 측면에서 이것에 접근하고 있음이 분명합니다. 당신은 통계적인 것에서 나는 기계 학습에서 왔습니다. 나는 당신, 당신의 연구 및 경력을 존중하지만 당신은 자신의 답변을 공식화하고 OP가 결정하도록 할 수 있습니다. 나는 학습에 열중하므로, 당신의 접근 방식을 가르쳐주십시오. 그러나 책을 사지 마십시오.
pAt84

1
로지스틱 회귀 분석은 머신 러닝이 존재하기 수십 년 전인 1958 년에 통계 학자 DR 콕스 (Doc Cox)에 의해 개발되었다는 점에 주목할 것입니다. 또한 "손실 기능"(더 나은 목적 함수라고도 함)은 분류와 관련이 없습니다. 그리고 내가 언급 한 모든 정보와 함께 온라인으로 이용할 수있는 광범위한 노트와 오디오 파일에 비용이 든다는 것은 무엇을 의미합니까?
Frank Harrell

2
둘 다 유효한 포인트를 올릴 수 있기 때문에 초기 의견을 모두지지했습니다. 나중에 나에게 사소한 싸움 같은 의견이 ...
usεr11852

4
추신 :보다 명확한 방법으로 예측 / 추정을 최적화하면 유틸리티 기능이 두 번째 단계에서 적용되고 예측 변수와 관련이 없기 때문에 최적의 결정을 내릴 수 있습니다. 예측 / 추정 최적화는 분류를 최적화하지 않으며 그 반대도 마찬가지입니다. 분류를 최적화하면 현재 데이터 세트에 맞게 조정되고 새로운 데이터 세트에는 적용되지 않는 이상한 유틸리티 기능을 사용하게됩니다. 분류를 실제로 최적화하려는 사람들 (권장하지 않음)은 추정 / 예측을 우회하는 방법을 모두 사용할 수 있습니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.