가치가있는 것 :
모두 rpart
와 ctree
재귀 수행 변량 스플릿 공변량들의 세트에 값에 따라 종속 변수를. rpart
관련 알고리즘은 일반적으로 현재 공변량을 선택하기 위해 정보 측정 (예 : Gini 계수 )을 사용합니다.
ctree
, 저자에 따르면 ( chl의 의견 참조 ) 다음과 같은 변수 선택 바이어스 rpart
(및 관련 방법)를 피합니다. 다른 것과 달리, ctree
정보 측정을 최대화하는 변수 (예 : Gini 계수)를 선택하는 대신 변수를 선택하기 위해 유의성 테스트 절차를 사용합니다.
유의성 검정 또는 그 이상 : 알고리즘의 각 시작에서 계산 된 다중 유의성 검정 (공변량 선택-분할-재귀 선택)은 순열 검정 입니다. 관찰 된 데이터 포인트에서 레이블을 재배치 할 때 검정 통계량의 모든 가능한 값. " (wikipedia 기사에서).
이제 테스트 통계의 경우 : 종속 변수와 공변량의 변환 (정체 포함, 즉 변환 없음)에서 계산됩니다. 두 변수에 대해 여러 가지 변환 중 하나를 선택할 수 있습니다. DV (종속 변수)의 경우 변환 을 요청한 영향 함수 라고합니다 .
예 ( 종이 에서 가져온 ) :
- DV와 공변량이 모두 숫자 인 경우 항등 변환을 선택하고 공변량과 DV 값의 모든 가능한 순열 간의 상관 관계를 계산할 수 있습니다. 그런 다음 계산 P는 이 순열 테스트에서 - 값과와 비교 P는 다른 공변량 -values.
- DV와 공변량이 모두 명목 형 (정렬되지 않은 범주 형)이면 검정 통계량은 우발성 표에서 계산됩니다.
- 이 일반 체계의 모든 변환 (ID 변환 포함)에서 다른 종류의 테스트 통계를 쉽게 구성 할 수 있습니다.
순열 테스트에 대한 작은 예 R
:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
이제 위와 같은 공변량 세트가 있다고 가정하십시오. 그런 다음 계산 P는 위의 기법에서 같은 공변량의 각 -values을, 가장 작은 함께 하나를 선택 P는 - 값을. 서로 다른 종류의 공변량 (예 : 숫자 및 범주)을 가질 수 있으므로 상관 대신 직접 p- 값을 계산하려고합니다 .
공변량을 선택한 후에는 가능한 모든 분할 (또는 종종 분할 전에 최소 개수의 DV 요소를 요구하여 가능한 모든 분할의 수를 제한)을 탐색하여 순열 기반 검정을 다시 평가하십시오.
ctree
DV 및 공변량 모두 가능한 변환의 번호와 함께 제공 (대한 도움말을 참조 Transformations
에서 party
패키지).
따라서 일반적으로 주된 차이점은 ctree
통계 이론 (즉, 순열 기반 유의성 검정에 의한 선택)을 기반으로하는 공변량 선택 체계 를 사용하여 잠재적 편향을 피한다는 rpart
것입니다. 그렇지 않으면 유사하게 보입니다. 예를 들어 조건부 추론 트리는 랜덤 포레스트의 기본 학습자로 사용될 수 있습니다.
이것은 내가 얻을 수있는 한입니다. 자세한 내용을 보려면 실제로 논문을 읽어야합니다. 모든 종류의 통계 분석을 적용 할 때 수행중인 작업을 실제로 알고 있어야합니다.