로지스틱 회귀 분석과 랜덤 포레스트 결과를 결합하는 방법은 무엇입니까?


12

나는 기계 학습을 처음 사용합니다. 로지스틱 회귀 및 임의 포리스트를 동일한 데이터 세트에 적용했습니다. 따라서 변수 중요성 (로지스틱 회귀의 절대 계수 및 임의의 포리스트의 변수 중요도)을 얻습니다. 최종 변수 중요성을 얻기 위해 두 가지를 결합하려고합니다. 누구나 자신의 경험을 공유 할 수 있습니까? 배깅, 부스팅, 앙상블 모델링을 확인했지만 필요한 것은 아닙니다. 복제본에서 동일한 모델에 대한 정보를 더 많이 결합합니다. 내가 찾고있는 것은 여러 모델의 결과를 결합하는 것입니다.


5
앙상블 모델링은 모델을 결합 할 수도 있습니다. 예를 들어 과반수 투표를 살펴보십시오. 스태킹도 참조하십시오.
pat

4
실제로, 계수 크기를 사용하는 것은 로지스틱 회귀 분석에서 "가변 중요도"를 결정하는 좋은 방법이 아닙니다. 표준화 된 계수를 보더라도 좋은 방법은 아닙니다. 왜? 계수는 추정치 일 뿐이며 관련 오류가 있음을 기억하십시오. 크기별로 계수를 선택한다는 것은 계수 크기를 과대 평가 한 계수를 선택하고 계수 크기를 과소 평가 한 계수를 제거하는 것을 의미합니다.
user765195

답변:


12

변수 중요도를 사용하려는 대상에 따라 다를 수 있습니다. 세 번째 분류 모델의 피처 선택 기준으로 사용됩니까? 이 경우 다양한 값과 평균 가중치에 대해 가중 평균 변수 중요도 (각 개별 변수 중요도 벡터를 단위 길이로 정규화 한 후)를 계산 한 다음 최종에 대해 가장 교차 검증 된 점수를 산출하는 값을 수집 할 수 있습니다 모델.

로지스틱 회귀 모델과 랜덤 포레스트 모델의 결과 (변수 중요도는 고려하지 않음)를 결합하는 데있어 다음 블로그 게시물 은 매우 유익하며 단일 평균 출력이 회귀 모델에 대한 단순하지만 매우 효과적인 앙상블 방법임을 보여줍니다.


1
당신의 답변에 감사드립니다. 언급 한 블로그는 정말 흥미로운 연구입니다. 아이디어가 있다고 생각합니다. 그의 크로스 엔트로피 공식 만이 관심사입니다. 온라인에서 찾은 것과 다른 것 같습니다. 그의 사용 : cross.entropy <-function (target, predicted) {predicted = pmax (1e-10, pmin (1-1e-10, predicted))-sum (target * log (predicted) + (1-target) * log (1-predicted))}
user1946504

2
동일한 아이디어를 내 데이터 세트에 적용했을 때 분류 오류로 분류 오류를 사용했는데 그 결과는 비슷하지 않습니다. 랜덤 포레스트는 로지스틱 회귀보다 훨씬 낫습니다. RF의 잘못된 분류 오류는 0.2이며 LR은 0.4입니다. 동시에 RF의 AUC는 0.8이고 LR의 경우 0.73입니다.
user1946504

5

(상기 답변 및 피드백에 대한 의견)

블로그를 읽어 주셔서 감사합니다!

교차 엔트로피 오류 함수는 로그 함수의 오류를 방지하기위한 저렴하고 쉬운 방법으로 예측 값을 [1e-10, 1-1e-10]으로 자르는 약간의 치트를 가지고 있습니다. 그렇지 않으면 이것이 표준 공식입니다.

데이터 집합의 경우 임의 포리스트가 로그보다 훨씬 우수한 데이터 집합을 가질 수 있습니다. 등록 그리고 로그. 등록 앙상블에 아무것도 추가하지 않습니다. 물론 홀드 아웃 데이터를 사용하고 있는지 확인하십시오. 임의의 포리스트는 훨씬 더 효과적인 매개 변수로 인해 훈련 ​​데이터에서 거의 항상 우수한 결과를 얻을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.