R에서 파티셔닝 트리 : 파티와 rpart


15

나무 분할을 살펴본 후 오랜 시간이 지났습니다. 지난번에 이런 일을했을 때, 나는 R의 파티 (핫혼이 만든)를 좋아합니다. 샘플링을 통한 조건부 추론에 대한 아이디어는 나에게 의미가 있습니다. 그러나 rpart도 호소했습니다.

현재 응용 프로그램에서 (세부 사항을 말할 수는 없지만 많은 피구금자 중 누가 감옥에 갈 것인지 결정하려고합니다) 임의의 숲, 가방, 부스팅 등의 고급 방법을 사용할 수 없습니다-쉽게 설명 할 수 있어야합니다. 규칙.

Zhang & Singer (2010) 재귀 분할 및 응용 프로그램 에서 권장하는대로 노드가 분할되는 것을 수동으로 제어하고 싶습니다 . 이 책과 함께 제공되는 프리웨어는이를 허용하지만 사용자 입력에서 다소 원시적입니다.

추천이나 제안?

답변:


8

나는 방법론이 rpart에 대해 설명하기 쉽다는 @Iterator에 동의합니다. 그러나 쉽게 설명 할 수있는 규칙을 찾고 있다면 파티 (포장 된 나무가없는)는 예측 설명과 관련하여 아무것도 잃지 않습니다. 여전히 하나의 나무가 있습니다. 결과 변수 (순수한 예측력뿐만 아니라)의 동인을 보는 데 관심이 있다면 나는 여전히 당사자가 갈 길이라고 생각할 것입니다-의사 결정 트리 (예 : rpart)가 변수는 중요하며 어떻게 분할을 만드는가. 당사자는 순열 테스트를 사용하고 가장 중요한 변수와 분할 방법을 통계적으로 결정합니다. 따라서 rpart와 같이 많은 수준의 범주 형 변수에 편향되는 편견 대신 party는 통계 테스트를 사용하여 최상의 구조를 찾습니다.


1
좋은 대답입니다. 나는 당신이 파티가 고급 청중에게 더 좋은 이유 그들이 파티의 사용을 받아들이도록 돕기 위해 청중을 교육하는 것이 좋은 이유에 부딪쳤다 고 생각합니다 .
반복자

4

[NB : 아래 업데이트 1을 참조하십시오.] 방법론 rpart이 설명하는 것보다 훨씬 쉽다는 것을 알게되었습니다 party. 그러나 후자는 훨씬 더 정교하며 더 나은 모델을 제공 할 가능성이 있습니다. 때때로 설명하는 방법 party은 로컬 선형 (또는 GLM) 모델을 생성하기위한 기초로 설명하는 것 입니다. rpart리프 노드에 속하는 모든 요소 (예 : 스플릿으로 둘러싸인 상자 / 영역)에 대한 결과 가 일정 하다는 점을 지적함으로써이를 달성했습니다 . 로컬 모델을 통해 개선 사항이 있더라도 일정한 예측 외에는 아무것도 얻지 못합니다.

반대로, party분할을 개발하여 지역에 대한 모델을 잠재적으로 최적화합니다. 실제로 모델 최적 성과는 다른 기준을 사용하지만 차이를 설명하기 위해 자신의 능력을 측정하여 설명 할 수 있는지 여부를 결정해야합니다. 그것에 대한 논문은 연구원이 접근하기 쉽지만 임의의 숲, 부스팅 등과 같은 간단한 방법을 고려하지 않으려는 사람에게는 상당히 어려울 수 있습니다. 수학적으로 party는 더 정교 하다고 생각합니다 ... 그럼에도 불구하고 CART 모델은 더 쉽습니다 방법론과 결과 측면에서 설명하고보다 정교한 트리 기반 모델을 도입하기위한 적절한 디딤돌을 제공합니다.

요컨대, rpart명확성 을 위해해야한다고 말하고 party정확성 / 성능에 사용할 수 는 있지만 소개 party하지 않고 소개 하지는 않겠습니다 rpart.


업데이트 1. 나는 1 party년 또는 2 년 전의 이해를 바탕으로 대답했습니다 . 상당히 성장했지만 rpart"비 공상"이 고객 / 공동 작업자에게 중요한 기준이되어야한다는 점을 간결하고 유산으로 추천한다고 대답하기 위해 답변을 수정하겠습니다 . 그러나 party누군가를 소개 한 후 에서 더 많은 기능을 사용하도록 마이그레이션하려고 합니다 rpart. 훨씬 더 복잡한 개념을 포함하는 패키지 및 방법론을 도입하기 전에 간단한 컨텍스트에서 손실 함수, 분할 기준 등으로 소규모로 시작하는 것이 좋습니다.


2
party패키지가 무엇을 할 수 있는지에 대해 약간 혼란스럽게 생각합니다 . 순수한 party함수는 rpart나뭇잎에 다수의 투표와 같은 하나의 간단한 트리를 만듭니다 . mob의 기능은 party잎에서 더 복잡한 모델과 나무를 구축 것입니다 (매개 변수 불안정에 따라 분할하고 선택합니다.)
시어 파크스

1
@SheaParkes 당신이 맞아요. 시간이 mob오래 걸렸으며 패키지의 나머지 만 사용했는지 또는 패키지의 나머지 부분이 약간 커 졌는지 확실 하지 않습니다. 답변을 수정하겠습니다 ...
Iterator

2
그리고 실제로, 나는 또한 조금 잊었다. 그건 ctree하나의 트리를 만들기 위해 cforest임의의 숲을하고 mob모델 기반의 잎을 할 수 있습니다. 그리고, cforest는 재미 있지만, 예측하기가 너무 느립니다.
Shea Parkes

나는 폭도 를 조사 할 것이다 , 그것이 내가 파티를 마지막으로 사용했을 때 존재했다고 생각하지 않는다 . 이번에는 포리스트 응용 프로그램이 아닙니다.
Peter Flom-Monica Monica 복원

@PeterFlom 나는 mob처음부터 거기에 있었거나 적어도 후에 왔을 것이라고 ctree생각합니다. 2009 년 또는 그 이전부터있었습니다. 어쨌든, 우리 모두 SE에서 새로운 것을 배울 수 있음을 보여 주려고합니다. :)
반복자
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.