조건부 추론 트리와 기존 의사 결정 트리


97

사람이 (조건 추론 나무 사이의 주요 차이점 설명 할 수 ctree에서 party(같은 전통적인 의사 결정 트리 알고리즘에 비해 R의 패키지) rpartR 인치)?

  1. CI 트리가 다른 이유는 무엇입니까?
  2. 강점과 약점?

업데이트 : 나는 Chi가 주석에서 언급하는 Horthorn et al의 논문을 보았습니다. 나는 그것을 완벽하게 따라갈 수 없었습니다-누구나 순열을 사용하여 변수가 어떻게 선택되는지 설명 할 수 있습니까 (예 : 영향 함수는 무엇입니까)?

감사!


1
당신은 Hothorn의 논문에 설명 된 것 이상의 설명을 의미 합니까? 나는 일부 좋은 그림을 기억 Carolin은 스트로 블을 상기 IMPS2009의 회의; 그녀의 웹 사이트에 유인물이 있다고 생각합니다.
chl

이 링크는 다양한 형태의 의사 결정 트리 패키지 r-bloggers.com/a-brief-tour-of-the-the-the-the-trees-and-forests
Archpaul

답변:


93

가치가있는 것 :

모두 rpartctree재귀 수행 변량 스플릿 공변량들의 세트에 값에 따라 종속 변수를. rpart관련 알고리즘은 일반적으로 현재 공변량을 선택하기 위해 정보 측정 (예 : Gini 계수 )을 사용합니다.

ctree, 저자에 따르면 ( chl의 의견 참조 ) 다음과 같은 변수 선택 바이어스 rpart(및 관련 방법)를 피합니다. 다른 것과 달리, ctree정보 측정을 최대화하는 변수 (예 : Gini 계수)를 선택하는 대신 변수를 선택하기 위해 유의성 테스트 절차를 사용합니다.

유의성 검정 또는 그 이상 : 알고리즘의 각 시작에서 계산 된 다중 유의성 검정 (공변량 선택-분할-재귀 선택)은 순열 검정 입니다. 관찰 된 데이터 포인트에서 레이블을 재배치 할 때 검정 통계량의 모든 가능한 값. " (wikipedia 기사에서).

이제 테스트 통계의 경우 : 종속 변수와 공변량의 변환 (정체 포함, 즉 변환 없음)에서 계산됩니다. 두 변수에 대해 여러 가지 변환 중 하나를 선택할 수 있습니다. DV (종속 변수)의 경우 변환 을 요청한 영향 함수 라고합니다 .

예 ( 종이 에서 가져온 ) :

  • DV와 공변량이 모두 숫자 인 경우 항등 변환을 선택하고 공변량과 DV 값의 모든 가능한 순열 간의 상관 관계를 계산할 수 있습니다. 그런 다음 계산 P는 이 순열 테스트에서 - 값과와 비교 P는 다른 공변량 -values.
  • DV와 공변량이 모두 명목 형 (정렬되지 않은 범주 형)이면 검정 통계량은 우발성 표에서 계산됩니다.
  • 이 일반 체계의 모든 변환 (ID 변환 포함)에서 다른 종류의 테스트 통계를 쉽게 구성 할 수 있습니다.

순열 테스트에 대한 작은 예 R:

require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE) 
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate)) 
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the 
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test

이제 위와 같은 공변량 세트가 있다고 가정하십시오. 그런 다음 계산 P는 위의 기법에서 같은 공변량의 각 -values을, 가장 작은 함께 하나를 선택 P는 - 값을. 서로 다른 종류의 공변량 (예 : 숫자 및 범주)을 가질 수 있으므로 상관 대신 직접 p- 값을 계산하려고합니다 .

공변량을 선택한 후에는 가능한 모든 분할 (또는 종종 분할 전에 최소 개수의 DV 요소를 요구하여 가능한 모든 분할의 수를 제한)을 탐색하여 순열 기반 검정을 다시 평가하십시오.

ctreeDV 및 공변량 모두 가능한 변환의 번호와 함께 제공 (대한 도움말을 참조 Transformations에서 party패키지).

따라서 일반적으로 주된 차이점은 ctree통계 이론 (즉, 순열 기반 유의성 검정에 의한 선택)을 기반으로하는 공변량 선택 체계 를 사용하여 잠재적 편향을 피한다는 rpart것입니다. 그렇지 않으면 유사하게 보입니다. 예를 들어 조건부 추론 트리는 랜덤 포레스트의 기본 학습자로 사용될 수 있습니다.

이것은 내가 얻을 수있는 한입니다. 자세한 내용을 보려면 실제로 논문을 읽어야합니다. 모든 종류의 통계 분석을 적용 할 때 수행중인 작업을 실제로 알고 있어야합니다.


따라서 다음과 같이 말할 수 있습니다. 1. 원칙적으로 Gini에 대한 유의성 테스트를 사용할 수 있고 쉽게 계산할 수 있으면 현재 의사 결정 트리 빌더를 이러한 기능으로 보강 할 수 있습니다. 2. 그러나 실제로는 대부분의 경우에 이용 가능하지 않다 (즉, 계산하기 매우 어렵거나 비효율적 임). 3. CI 트리의 저자는 하나의 분할 기준 패밀리를 선택했습니다. 이것이 반드시 분류 정확도를위한 최상의 제품군은 아니지만 최소한 의미를 계산하는 것은 쉽습니다. 4. CI 트리의 약점은이 특정 기준을 사용해야한다는 것입니다.
SheldonCooper

1
@SheldonCooper : 1.와 2.가 머리 위로 약간있을 수 있습니다. 나는 당신이 3과 4에 대해 맞다고 생각합니다.
wolf.rauch

1
(...) 및 DV 값의 모든 가능한 순열 "DV 값의 모든 가능한 순열 10 개 요소의 가능한 모든 순열을 찾는 데 130 초 이상 걸립니다. 이렇게하면 CI 트리가 20 번의 관찰-중재자가 추가
chl

1
미안하지만 DV는 무엇을 의미합니까?
신화

1
@mythicalprogrammer 의존 변수, 나는 생각한다
Frikster
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.