가치가있는 것 :
모두 rpart와 ctree재귀 수행 변량 스플릿 공변량들의 세트에 값에 따라 종속 변수를. rpart관련 알고리즘은 일반적으로 현재 공변량을 선택하기 위해 정보 측정 (예 : Gini 계수 )을 사용합니다.
ctree, 저자에 따르면 ( chl의 의견 참조 ) 다음과 같은 변수 선택 바이어스 rpart(및 관련 방법)를 피합니다. 다른 것과 달리, ctree정보 측정을 최대화하는 변수 (예 : Gini 계수)를 선택하는 대신 변수를 선택하기 위해 유의성 테스트 절차를 사용합니다.
유의성 검정 또는 그 이상 : 알고리즘의 각 시작에서 계산 된 다중 유의성 검정 (공변량 선택-분할-재귀 선택)은 순열 검정 입니다. 관찰 된 데이터 포인트에서 레이블을 재배치 할 때 검정 통계량의 모든 가능한 값. " (wikipedia 기사에서).
이제 테스트 통계의 경우 : 종속 변수와 공변량의 변환 (정체 포함, 즉 변환 없음)에서 계산됩니다. 두 변수에 대해 여러 가지 변환 중 하나를 선택할 수 있습니다. DV (종속 변수)의 경우 변환 을 요청한 영향 함수 라고합니다 .
예 ( 종이 에서 가져온 ) :
- DV와 공변량이 모두 숫자 인 경우 항등 변환을 선택하고 공변량과 DV 값의 모든 가능한 순열 간의 상관 관계를 계산할 수 있습니다. 그런 다음 계산 P는 이 순열 테스트에서 - 값과와 비교 P는 다른 공변량 -values.
- DV와 공변량이 모두 명목 형 (정렬되지 않은 범주 형)이면 검정 통계량은 우발성 표에서 계산됩니다.
- 이 일반 체계의 모든 변환 (ID 변환 포함)에서 다른 종류의 테스트 통계를 쉽게 구성 할 수 있습니다.
순열 테스트에 대한 작은 예 R:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
이제 위와 같은 공변량 세트가 있다고 가정하십시오. 그런 다음 계산 P는 위의 기법에서 같은 공변량의 각 -values을, 가장 작은 함께 하나를 선택 P는 - 값을. 서로 다른 종류의 공변량 (예 : 숫자 및 범주)을 가질 수 있으므로 상관 대신 직접 p- 값을 계산하려고합니다 .
공변량을 선택한 후에는 가능한 모든 분할 (또는 종종 분할 전에 최소 개수의 DV 요소를 요구하여 가능한 모든 분할의 수를 제한)을 탐색하여 순열 기반 검정을 다시 평가하십시오.
ctreeDV 및 공변량 모두 가능한 변환의 번호와 함께 제공 (대한 도움말을 참조 Transformations에서 party패키지).
따라서 일반적으로 주된 차이점은 ctree통계 이론 (즉, 순열 기반 유의성 검정에 의한 선택)을 기반으로하는 공변량 선택 체계 를 사용하여 잠재적 편향을 피한다는 rpart것입니다. 그렇지 않으면 유사하게 보입니다. 예를 들어 조건부 추론 트리는 랜덤 포레스트의 기본 학습자로 사용될 수 있습니다.
이것은 내가 얻을 수있는 한입니다. 자세한 내용을 보려면 실제로 논문을 읽어야합니다. 모든 종류의 통계 분석을 적용 할 때 수행중인 작업을 실제로 알고 있어야합니다.