임의 포리스트에서 LASSO 사용


14

다음 프로세스를 사용하여 임의의 포리스트를 만들고 싶습니다.

  • 정보 획득을 사용하여 분할을 결정하는 임의의 데이터 및 기능 샘플에 트리를 구축
  • 사전 정의 된 깊이를 초과하는 리프 노드를 종료하거나 분할하면 사전 정의 된 최소값보다 작은 리프 수가 생성됩니다.
  • 각 트리에 클래스 레이블을 지정하는 대신 리프 노드에서 클래스 비율을 지정하십시오.
  • 미리 정의 된 숫자가 생성 된 후 나무 만들기를 중지

이것은 전통적인 랜덤 포레스트 프로세스를 두 가지 방식으로 강화합니다. 첫째, 클래스 레이블이 아닌 비율을 할당하는 가지 치기 트리를 사용합니다. 그리고 두 번째, 중지 기준은 일부 수하물 부족 오류 추정치보다 미리 결정된 수의 나무입니다.

내 질문은 이것입니다 :

N 트리를 출력하는 위의 프로세스 에서 LASSO 선택과 함께 로지스틱 회귀를 사용하여 모델을 적합시킬 수 있습니까? 물류 LASSO로 랜덤 포레스트 분류기와 후 처리를 경험 한 사람이 있습니까?

ISLE 프레임 워크는 회귀 문제에 대한 후 처리 단계로 LASSO를 사용하지만 분류 문제는 사용하지 않는다고 언급합니다. 또한 "랜덤 포레스트 올가미"를 검색 할 때 유용한 결과를 얻지 못합니다.


올가미는 다양한 품질이 많은 경우 유용한 기능을 찾고 가중치를 부여하는 데 능숙합니다. 숲의 개별 나무는 다른 나무보다 훨씬 나쁘지 않을 것이므로 올가미가 당신을 많이 도울 것이라고 생각하지 않습니다.
rrenaud

대체하지 않고 작은 분수를 샘플링하고 트리 깊이를 제한함으로써 더 큰 다양성이 도입되므로 어떤 형태의 정규화가 필요하다고 생각합니다.
Zelazny7

물류 모델을 적합하게 계획하는 방법에 대해 더 구체적으로 설명 할 수 있습니까? 예측 변수는 정확히 무엇입니까? 또한 사후 처리에 대한 동기는 무엇입니까? 변수 선택을 시도하는 경우 고려해야 할 다른 방법이 있습니다.
Alex Williams

각 트리의 예측을 출력하여 예측 변수의 새로운 데이터 세트가 작성됩니다. 이 데이터 세트는 LASSO 회귀 분석에 사용되어 트리 예측의 희소 조합에 도달 할 수 있습니다. 동기 부여는보다 간결하고 생산에서 더 빨리 실행되는 모델을 생산하는 것입니다.
Zelazny7

최근에 비슷한 문제가 발생했으며 Friedman의 원본 논문 에서 이진 분류 문제를 위해 특별히 손실 함수를 설계 한 것을 발견했습니다 . 도움이 되길 바랍니다. 또한 멀티 클래스 분류 문제로 확장하는 방법에 대한 아이디어가 있습니까? 또는 다중 클래스 분류 문제에 대한 귀하의 접근 방식은 무엇입니까?
Quan

답변:


5

그래디언트 트리 부스팅과 비슷합니다. 부스팅의 개념은 모델 클래스의 최상의 선형 조합을 찾는 것입니다. 트리를 데이터에 맞추면 결과 변수를 가장 잘 설명하는 트리를 찾으려고합니다. 대신 부스팅을 사용하면 트리의 가장 좋은 선형 조합을 찾으려고합니다.

그러나 부스팅을 사용하면 임의의 트리가 없기 때문에 조금 더 효율적이지만 아직 예측할 수없는 예에서 작동하는 새 트리를 만들려고합니다.

이에 대한 자세한 내용은 통계 학습 요소 10 장 ( http://statweb.stanford.edu/~tibs/ElemStatLearn/)을 읽는 것이 좋습니다 .

이것이 귀하의 질문에 대한 완전한 답변은 아니지만 도움이되기를 바랍니다.


3
감사. 처음 에이 질문을 게시 한 이후 R의 GBM 패키지에 매우 익숙해졌습니다. 내 프로세스는 이제 10,000 나무의 GBM 모델을 구축 한 다음 GLMnet을 통해 10,000 나무를 모두 실행하여 LASSO 회귀를 수행합니다. 이로 인해 성능 손실이 거의 또는 전혀없는 압축 된 GBM 모델이 생성됩니다.
Zelazny7

@ Zelazny7 홀드 아웃 / 테스트 데이터는 어떻습니까?
josh

예, 모든 테스트는 개발에 아무런 영향을주지 않는 보류로 수행됩니다. 대부분의 경우 성능이 저하되지 않습니다. 때로는 조금 더 나 빠지고 때로는 향상되기도합니다.
Zelazny7

1
@ Zelazny7 나는 같은 경험으로 동일한 절차 (마지막 직장에서)에 부딪쳤다.
Matthew Drury

당신은 무언가에 있어야합니다 ... Hastie 자신은 임의의 숲에서 후 처리 트리를 제안하거나 LASSO를 사용하여 부스트합니다. 그는 이 비디오 에서 30:10 에 언급 했습니다.
Jonathan
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.